Компонентный и факторный анализ

               Министерство  образования  Российской Федерации



                 ОРЕНБУРГСКИЙ   ГОСУДАРСТВЕННЫЙ  УНИВЕРСИТЕТ


                      Финансово-экономический факультет


                                Кафедра  МММЭ



                               КУРСОВАЯ РАБОТА

              по дисциплине "Многомерные статистические методы"


                       Компонентный и факторный анализ



                           ОГУ  061700.5001.06 00



                                                Руководитель работы


                                            __________________   Реннер А.Г.

                                                 “____”_____________2001г.

                                            Исполнитель

                                            студент гр.99ст

______________ Рамазанов М.И.

                                                   “_____”____________2001г.



                                Оренбург 2001

                                 Содержание


Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4

1 Исследование на мультиколлинеарность……………………………..……5


2 Метод главных компонент………………………………………………..….7
    2.1 Вычисление главных компонент……………………………………….…7
    2.2 Экономическая интерпретация полученных главных компонент…..…12
    2.3 Матрица наблюденных значений главных компонент……………...….12
    2.4 Классификация объектов…………………………………………………13
    2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
    3.1 Преобразование матрицы парных коэффициентов корреляции  в
   редуцированную матрицу, получение матрицы факторных нагрузок и
   экономическая интерпретация ………………………………………………..…...16
    3.2 Графическая классификация объектов по двум общим факторам…….19
    3.3 Переход к обобщенным факторам с помощью варимаксного
     вращения ……………………………………………………………………...19
    3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23



                                   Задание
        По имеющимся данным производственно-хозяйственной деятельности
                         предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие
мультиколлинеарности следующими методами:
Метод главных компонент:
    - для факторных признаков найти оценку матрицы парных коэффициентов
      корреляции, найти собственные числа и собственные вектора;
    - на основании матрицы собственных чисел определить вклад главных
      компонент в суммарную дисперсию признаков, отобрать и указать m (m[pic]  , то гипотеза Н0 отвергается и матрица  является  значимой,
следовательно, имеет смысл проводить компонентный анализ.
         Проверим гипотезу о диагональности  ковариационной матрицы
       Выдвигаем гипотезу:
      Н0: соv[pic]=0, [pic]
      Н1: соv[pic]
       Строим  статистику  [pic],  распределена  по  закону  [pic]  с  [pic]
степенями свободы.
[pic]=123,21, [pic](0,05;10) =18,307 т.к [pic]>[pic] то гипотеза Н0
отвергается и имеет смысл проводить компонентный анализ.

        Для построения матрицы факторных нагрузок необходимо найти
собственные числа матрицы [pic], решив уравнение[pic].
    Используем для этой операции функцию eigenvals системы MathCAD, которая
возвращает собственные числа матрицы:
    [pic]
Т.к.   исходные   данные   представляют   собой   выборку   из   генеральной
совокупности, то мы  получили  не  собственные  числа  [pic]  и  собственные
вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо”  со
статистической   точки   зрения    выборочные    характеристики    описывают
соответствующие параметры для генеральной совокупности.
       Доверительный интервал для i-го собственного числа ищется по
формуле:[pic]
    Доверительные интервалы для собственных чисел в итоге принимают вид:
    [pic]
    [pic][pic]
    Оценка значения нескольких собственных чисел попадает в доверительный
интервал других собственных чисел. Необходимо проверить гипотезу о
кратности собственных чисел.
    Проверка кратности производится  с помощью статистики
    [pic]  , где r-количество кратных корней.
    Данная статистика в случае справедливости [pic]распределена по закону
[pic] с числом степеней свободы [pic]. Выдвинем гипотезы:[pic][pic]

    [pic]
    Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
    Далее,
    :[pic][pic]

    [pic]
    Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
    :[pic][pic]

    [pic]
    Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.

       Необходимо выделить  главные  компоненты  на  уровне  информативности
0,85. Мера информативности показывает какую часть или какую  долю  дисперсии
исходных   признаков   составляют   k-первых   главных   компонент.    Мерой
информативности будем называть величину: [pic]
I1=[pic]=0,458
I2=[pic]=0,667
I3=[pic]
 На заданном уровне информативности выделено три главных компоненты.

        Запишем матрицу [pic]=[pic]
    Для получения нормализованного вектора перехода от исходных признаков к
главным компонентам необходимо решить систему уравнений: [pic], где [pic]-
соответствующее собственное число. После получения решения системы
необходимо затем нормировать полученный вектор.
        Для решения данной задачи воспользуемся функцией eigenvec системы
MathCAD, которая возвращает нормированный вектор для соответствующего
собственного числа.
В нашем случае первых четырех главных компонент достаточно для достижения
заданного уровня информативности, поэтому матрица U (матрица перехода от
исходного базиса к базису из собственных векторов)
      Строим матрицу U, столбцами которой являются собственные вектора:
U=[pic].
      Матрица весовых коэффициентов:
   [pic]
   [pic]
А=[pic].
      Коэффициенты  матрицы  А  являются  коэффициентами  корреляции   между
центрировано  –  нормированными  исходными  признаками   и  ненормированными
главными компонентами,  и  [pic]  показывают  наличие,  силу  и  направление
линейной   связи   между    соответствующими    исходными    признаками    и
соответствующими главными компонентами.

        2.2 Экономическая интерпретация полученных главных компонент

    Коэффициент [pic] матрицы А представляют собой коэффициенты корреляции
между i-ой главной компонентой и  j-ым исходным признаком.
    Так как первая главная компонента зависит главным образом от первого
(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент
сменности оборудования) исходного признака, следовательно ее можно
обозначить как «Эффективность основного производства». Вторая главная
компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных
изделий) и четвертым (X9 – удельный вес потерь от брака) исходными
признаками, ее можно обозначить как «Удельный вес затрат не приносящих
прибыль». Третья главная компонента взаимосвязана с четвертым исходным
признаком, поэтому ее обозначим «Удельный вес потерь от брака».

             2.3 Матрица наблюденных значений главных компонент.

      Мы получили ненормированные главные компоненты.  Проведя  нормирование
полученных центрированных  [pic],  получим  [pic].  При  нормировании  [pic]
дисперсия должна равняться 1, [pic]. Для  этого  нужно  разделить  [pic]  на
среднеквадратическое отклонение [pic].
[pic]
      Обозначим  [pic]  -  это  матрица  весовых  коэффициентов,  с  помощью
которой устанавливается связь между нормированными  исходными  признаками  и
нормированными главными компонентами.
     Модель метода главных компонент:
    [pic] где
[pic]- значение I-той стандартизированной переменной по j-ому объекту
наблюдения;
[pic]- m-тая главная компонента по j-ому объекту наблюдения;
    [pic]- весовой коэффициент m-той главной компоненты и I-той переменной.
    Эту матрицу будем строить, исходя из соотношения [pic],
    где [pic]- диагональная матрица, на главной диагонали которой стоят
дисперсии соответствующих главных компонент в минус первой степени;
       [pic]     - транспонированная матрица факторных нагрузок;
         Х- матрица наблюденных значений исходных признаков.

    Данная формула хороша тем, что она верна и в том случае, если матрица
А не квадратная (т.е. выделено m

Измен.R^2        F   Значим
    0,028     1,47    0,229

--------------  Переменные в уравнении ---------------
 Переменн. Коэфф.В  Ст.ош.В     Бета        F   Значим
       f3   -0,437     0,36   -0,167     1,47    0,229

------------------ Переменные не в уравнении ---------------------------
 Переменн. Коэфф.В  Ст.ош.В     Бета        F   Значим  Частн.R    Толер.
       f2   0,0241    0,364  0,00922  0,00438    0,946  0,00935        1
       f1    0,116    0,364   0,0446    0,102    0,749   0,0452        1

Приложение 4
«Наблюденные» значения  общих факторов.
|№     |f1    |f2    |f3    |
|1     |0.745 |янв.23|1.313 |
|2     |0.734 |-0.836|0.704 |
|3     |-0.238|0.527 |0.758 |
|4     |0.318 |1.969 |1.578 |
|5     |-1.211|0.409 |0.318 |
|6     |0.232 |-1.468|0.097 |
|7     |-1.22 |-0.515|-0.57 |
|8     |-0.25 |1.614 |0.959 |
|9     |-1.849|-1.743|-1.129|
|10    |-0.476|01.апр|0.564 |
|11    |-1.789|0.264 |-0.56 |
|12    |-1.179|-0.298|-0.439|
|13    |-1.87 |0.016 |-0.572|
|14    |-1.44 |-3.51 |-1.681|
|15    |-1.009|-3.509|-1.145|
|16    |0.266 |-1.837|-0.201|
|17    |0.259 |-2.529|-0.505|
|18    |0.857 |-1.027|-0.204|
|19    |0.878 |-0.868|-6.854|
|      |      |      |E-3   |
|20    |1.076 |0.101 |0.966 |
|21    |0.307 |-0.685|0.247 |
|22    |0.791 |-2.553|-0.15 |
|23    |-1.051|-2.264|-1.434|
|24    |1.241 |2.131 |1.901 |
|25    |1.312 |2.653 |2.214 |
|26    |1.117 |0.583 |1.302 |
|27    |-0.957|-1.415|-0.703|
|28    |0.459 |-0.507|0.197 |
|29    |0.122 |3.157 |1.449 |
|30    |0.437 |1.527 |0.772 |
|31    |-1.286|-2.376|-0.534|
|32    |0.618 |апр.32|2.167 |
|33    |0.666 |0.896 |1.303 |
|34    |0.582 |-0.631|0.472 |
|35    |-1.295|0.351 |0.086 |
|36    |-0.463|0.212 |0.634 |
|37    |1.705 |0.623 |1.523 |
|38    |0.366 |1.402 |1.025 |
|39    |0.423 |0.057 |0.635 |
|40    |0.965 |0.228 |0.766 |
|41    |3.449 |май.79|-16.47|
|      |      |      |1     |
|42    |-0.049|-0.334|0.249 |
|43    |-0.578|мар.14|1.174 |
|44    |-1.702|1.212 |0.04  |
|45    |-1.802|-0.354|-1.028|
|46    |-0.864|-1.729|-0.953|
|47    |0.449 |1.732 |1.235 |
|48    |-2.152|-0.24 |-0.695|
|49    |3.036 |-3.314|1.159 |
|50    |1.037 |5.343 |2.573 |
|51    |2.026 |-3.347|0.406 |
|52    |-1.012|-3.805|-1.202|
|53    |-0.731|-0.83 |-0.606|



Приложение 5

    Уравнение регрессии на общие факторы.
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ.

  Коэфф.       a0       a1       a2       a3
Значение     7,97    0,309   0,0722    0,186
Ст.ошиб.    0,359    0,309    0,177    0,145
 Значим.        0    0,323    0,688    0,204

Источник  Сум.квадр. Степ.св Средн.квадр.
Регресс.     19,3        3     6,43
Остаточн      335       49     6,84
     Вся      354       52

Множеств R     R^2  R^2прив  Ст.ошиб.       F   Значим
   0,2333 0,054428-0,0034647   2,6147     0,94     0,57
   Гипотеза 0: <Регрессионная модель неадекватна экспериментальным данным>