8.2 Визначення структури та статистичне дослідження моделі факторного аналізу

Постановка завдання факторного аналізу. Нехай задана система змінних або ознак, значення яких відомі для кожного з \(N\) об’єктів. Уявімо вихідну інформацію у вигляді матриці розмірності \((n×N)\). Передбачається, що кожен елемент матриці є результатом впливу деякого числа \(m\) гіпотетичних чинників і одного характерного. Для побудови моделі факторного аналізу слід провести стандартизацію вихідних даних.

\[ y_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j},\ s_{j} = \sqrt{\sum_{i=1}^N (x_{ij} - \bar{x}_j)^2}, \tag{8.1} \]

де \(y_{ij}\) — стандартизоване значення \(j\)-ї змінної на \(i\)-му об’єкті (безрозмірна величина);

\(s_j\) — середньоквадратичне відхилення \(j\)-ї ознаки (виправлене).

Основна модель факторного аналізу:

\[ y_{ij} = a_{j1} f_{1i} + a_{j2} f_{2i} + ⋯ + a_{jm} f_{mi} + d_{j} v_{ji},\ j=\overline{1, n};\ r = \overline {1, m};\ i = \overline {1,N}, \tag{8.2} \]

де \(y_{ij}\) — нормоване значення \(j\)-го показника (змінної) \(j\)-го об’єкта дослідження;

\(f_{mi}\) — значення \(m\)-го загального фактора на \(i\)-му об’єкті дослідження;

\(v_{ji}\) — значення \(j\)-го характерного фактора на \(i\)-му об’єкті дослідження;

\(a_{jm}\) — ваговий коефіцієнт \(j\)-ї змінної на \(m\)-му загальному факторі або навантаження \(j\)-ї змінної на \(r\)-му загальному факторі;

\(d_j\) — навантаження або ваговий коефіцієнт \(j\)-ї змінної на \(j\)-му характерному факторі.

Матрична форма моделі факторного аналізу має такий вигляд:

\[ A = \left(\begin{array}{c}a_{11} & a_{12} & ... & a_{1m} & 0 & 0 & ... & 0 \\ a_{21} & a_{22} & ... & a_{2m} & 0 & 0 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ a_{n1} & a_{n2} & ... & a_{nm} & 0 & 0 & ... & 0 \end{array}\right ) + \\ + D = \left(\begin{array}{c} 0 & 0 & ... & 0 & d_1 & 0 & ... & 0 \\ 0 & 0 & ... & 0 & 0 & d_2 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ 0 & 0 & ... & 0 & 0 & 0 & ... & d_n \end{array}\right) = \\ = M = \left(\begin{array}{c}a_{11} & a_{12} & ... & a_{1m} & d_1 & 0 & ... & 0 \\ a_{21} & a_{22} & ... & a_{2m} & 0 & d_2 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ a_{n1} & a_{n2} & ... & a_{nm} & 0 & 0 & ... & d_n \end{array}\right). \tag{8.3} \]

Після цих уточнень модель можна записати в матричній формі: \(Y = AF\). Або \(Y = MF^*\), з врахуванням повної факторної матриці \(M\):

\[ F = \left(\begin{array}{c}f_{11} & ... & f_{1N}\\ ... & ... & ... \\ f_{m1} & ... & f_{mN}\end{array}\right) + V = \left(\begin{array}{c}v_{11} & ... & v_{1N}\\ ... & ... & ... \\ v_{m1} & ... & v_{mN}\end{array}\right) = \\ = F^* = \left(\begin{array}{c}f_{11} & ... & f_{1N}\\ ... & ... & ... \\ f_{m1} & ... & f_{mN} \\ v_{11} & ... & v_{1N}\\ ... & ... & ... \\ v_{m1} & ... & v_{mN}\end{array}\right). \tag{8.4} \]

Дисперсія ознаки \(y_j\) в факторному аналізі може бути подана як:

\[ S_j^2 = h_j^2 + d_j^2 = 1, \]

де \(S_j^2\) — дисперсія ознаки \(y_j\);

\(h_j^2\) — внесок у дисперсію ознаки всіх \(m\) загальних факторів;

\(d_j^2\) — внесок у дисперсію ознаки \(y_j\) характерного фактора \(v_j\).

Дисперсія характерного фактора може бути подана як:

\[ d_j^2 = b_j^2 + c_j^2 = 1, \]

де \(c_j^2\) — компонента дисперсії, пов’язана зі специфікою параметра;

\(d_j^{2}\) — компоненти, пов’язані з помилками вимірювань.

Компоненти дисперсії в факторному аналізі розраховують за формулами, поданими в табл. 8.1.

Табл. 8.1: Компоненти дисперсії
Частка дисперсії Позначення Формула
Повна дисперсія \(S_j^2\) \(h_j^2 + b_j^2 + c_j^2 = h_j^2 + d_j^2 = 1\)
Надійність \(r_j^2\) \(h_j^2 + b_j^2 = 1 - c_j^2\)
Спільність \(h_j^2\) \(1-d_j^2\)
Характерність \(d_j^2\) \(b_j^2 + c_j^2 = 1 -h_j^2\)
Специфічність \(b_j^2\) \(d_j^2 - c_j^2\)
Дисперсія помилки \(c_j^2\) \(1 - r_j^2\)

Фундаментальна теорема факторного аналізу. У виразі \(Y = MF^*\) невідомі дві матриці з трьох: \(M\) і \(F^*\). Вихідні дані матриці \(Y\) дозволяють отримати матрицю \(R\). Це матриця коефіцієнтів парної кореляції, або кореляційна матриця. Також для відтворення матриці парних кореляцій можна використовувати матрицю \(M\):

\[ R = MM^T = AA^T + DD^T; \\ R_h= AA^T, \> DD^T = D^2. \tag{8.5} \]

Таким чином, матриця коефіцієнтів парної кореляції, отримана з вихідних показників, може бути відтворена за допомогою матриці \(M\):

\[ R = R_h + D^2. \tag{8.6} \]

Подамо елемент матриці \(R\) у розгорнутому вигляді:

\[ R = \frac{YY^T}{N}. \tag{8.7} \]

У матричній формі цей вираз можна записати так:

\[ r_{jk} = \frac{1}{N} (y_{j1} y_{k1} + y_{j2} y_{k2} +⋯ + y_{jN} y_{kN}). \tag{8.8} \]

Скориставшись формулою \(Y = AF\), перетворимо \(R\) в редуковану матрицю:

\[ R_h = \frac{1}{N} AF (AF)^T = \frac{1}{N} AFF^T A^T = A \frac{1}{N} FF^T A^T. \tag{8.9} \]

Позначимо \(\frac{1}{N} FF^T=C\), відповідно: \(R_h=ACA^T\). Цей вираз називають теоремою факторного аналізу. Якщо загальні фактори не корельовані між собою, то \(C\) буде одиничною матрицею, отже \(R_h=AA^T\).

Методи обчислення спільності:

  • метод квадрата коефіцієнта множинної кореляції;
  • метод найбільшого коефіцієнта кореляції за рядком;
  • метод оцінки середнього коефіцієнта кореляції за рядком;
  • метод тріад для оцінки \(h_j\).

\[ h_j^2 = \frac{r_{jk} r{jl}}{r{kl}}, \tag{8.10} \]

де \(r_{jk}\) — коефіцієнт кореляції в рядку \(j\), що має найбільше значення стохастичного зв’язку між ознакою \(Y_j\) і змінною \(Y_k\);

\(r_{jl}\) — коефіцієнт кореляції, який має найбільше значення, що характеризує зв’язок ознаки \(Y_j \subset Y_l.\)

За методом першого центроїдного фактора обчислення \(h_j\) проводять таким чином:

\[ \hat{h}_j^2 = \frac{(\sum_{k=1}^n r_{jk})^2}{\sum_{k=1}^n \sum_{l=1}^2 r_{kl}}. \tag{8.11} \]

Таким чином за обчисленими спільностями визначають головні фактори. Через значення повної дисперсії та спільності можна обчислити внесок остаточної частки дисперсії.