8.2 Визначення структури та статистичне дослідження моделі факторного аналізу
Постановка завдання факторного аналізу. Нехай задана система змінних або ознак, значення яких відомі для кожного з \(N\) об’єктів. Уявімо вихідну інформацію у вигляді матриці розмірності \((n×N)\). Передбачається, що кожен елемент матриці є результатом впливу деякого числа \(m\) гіпотетичних чинників і одного характерного. Для побудови моделі факторного аналізу слід провести стандартизацію вихідних даних.
\[ y_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j},\ s_{j} = \sqrt{\sum_{i=1}^N (x_{ij} - \bar{x}_j)^2}, \tag{8.1} \]
де \(y_{ij}\) — стандартизоване значення \(j\)-ї змінної на \(i\)-му об’єкті (безрозмірна величина);
\(s_j\) — середньоквадратичне відхилення \(j\)-ї ознаки (виправлене).
Основна модель факторного аналізу:
\[ y_{ij} = a_{j1} f_{1i} + a_{j2} f_{2i} + ⋯ + a_{jm} f_{mi} + d_{j} v_{ji},\ j=\overline{1, n};\ r = \overline {1, m};\ i = \overline {1,N}, \tag{8.2} \]
де \(y_{ij}\) — нормоване значення \(j\)-го показника (змінної) \(j\)-го об’єкта дослідження;
\(f_{mi}\) — значення \(m\)-го загального фактора на \(i\)-му об’єкті дослідження;
\(v_{ji}\) — значення \(j\)-го характерного фактора на \(i\)-му об’єкті дослідження;
\(a_{jm}\) — ваговий коефіцієнт \(j\)-ї змінної на \(m\)-му загальному факторі або навантаження \(j\)-ї змінної на \(r\)-му загальному факторі;
\(d_j\) — навантаження або ваговий коефіцієнт \(j\)-ї змінної на \(j\)-му характерному факторі.
Матрична форма моделі факторного аналізу має такий вигляд:
\[ A = \left(\begin{array}{c}a_{11} & a_{12} & ... & a_{1m} & 0 & 0 & ... & 0 \\ a_{21} & a_{22} & ... & a_{2m} & 0 & 0 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ a_{n1} & a_{n2} & ... & a_{nm} & 0 & 0 & ... & 0 \end{array}\right ) + \\ + D = \left(\begin{array}{c} 0 & 0 & ... & 0 & d_1 & 0 & ... & 0 \\ 0 & 0 & ... & 0 & 0 & d_2 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ 0 & 0 & ... & 0 & 0 & 0 & ... & d_n \end{array}\right) = \\ = M = \left(\begin{array}{c}a_{11} & a_{12} & ... & a_{1m} & d_1 & 0 & ... & 0 \\ a_{21} & a_{22} & ... & a_{2m} & 0 & d_2 & ... & 0 \\ ... & ... & ... & ... & ... & ... & ... & ... \\ a_{n1} & a_{n2} & ... & a_{nm} & 0 & 0 & ... & d_n \end{array}\right). \tag{8.3} \]
Після цих уточнень модель можна записати в матричній формі: \(Y = AF\). Або \(Y = MF^*\), з врахуванням повної факторної матриці \(M\):
\[ F = \left(\begin{array}{c}f_{11} & ... & f_{1N}\\ ... & ... & ... \\ f_{m1} & ... & f_{mN}\end{array}\right) + V = \left(\begin{array}{c}v_{11} & ... & v_{1N}\\ ... & ... & ... \\ v_{m1} & ... & v_{mN}\end{array}\right) = \\ = F^* = \left(\begin{array}{c}f_{11} & ... & f_{1N}\\ ... & ... & ... \\ f_{m1} & ... & f_{mN} \\ v_{11} & ... & v_{1N}\\ ... & ... & ... \\ v_{m1} & ... & v_{mN}\end{array}\right). \tag{8.4} \]
Дисперсія ознаки \(y_j\) в факторному аналізі може бути подана як:
\[ S_j^2 = h_j^2 + d_j^2 = 1, \]
де \(S_j^2\) — дисперсія ознаки \(y_j\);
\(h_j^2\) — внесок у дисперсію ознаки всіх \(m\) загальних факторів;
\(d_j^2\) — внесок у дисперсію ознаки \(y_j\) характерного фактора \(v_j\).
Дисперсія характерного фактора може бути подана як:
\[ d_j^2 = b_j^2 + c_j^2 = 1, \]
де \(c_j^2\) — компонента дисперсії, пов’язана зі специфікою параметра;
\(d_j^{2}\) — компоненти, пов’язані з помилками вимірювань.
Компоненти дисперсії в факторному аналізі розраховують за формулами, поданими в табл. 8.1.
Частка дисперсії | Позначення | Формула |
---|---|---|
Повна дисперсія | \(S_j^2\) | \(h_j^2 + b_j^2 + c_j^2 = h_j^2 + d_j^2 = 1\) |
Надійність | \(r_j^2\) | \(h_j^2 + b_j^2 = 1 - c_j^2\) |
Спільність | \(h_j^2\) | \(1-d_j^2\) |
Характерність | \(d_j^2\) | \(b_j^2 + c_j^2 = 1 -h_j^2\) |
Специфічність | \(b_j^2\) | \(d_j^2 - c_j^2\) |
Дисперсія помилки | \(c_j^2\) | \(1 - r_j^2\) |
Фундаментальна теорема факторного аналізу. У виразі \(Y = MF^*\) невідомі дві матриці з трьох: \(M\) і \(F^*\). Вихідні дані матриці \(Y\) дозволяють отримати матрицю \(R\). Це матриця коефіцієнтів парної кореляції, або кореляційна матриця. Також для відтворення матриці парних кореляцій можна використовувати матрицю \(M\):
\[ R = MM^T = AA^T + DD^T; \\ R_h= AA^T, \> DD^T = D^2. \tag{8.5} \]
Таким чином, матриця коефіцієнтів парної кореляції, отримана з вихідних показників, може бути відтворена за допомогою матриці \(M\):
\[ R = R_h + D^2. \tag{8.6} \]
Подамо елемент матриці \(R\) у розгорнутому вигляді:
\[ R = \frac{YY^T}{N}. \tag{8.7} \]
У матричній формі цей вираз можна записати так:
\[ r_{jk} = \frac{1}{N} (y_{j1} y_{k1} + y_{j2} y_{k2} +⋯ + y_{jN} y_{kN}). \tag{8.8} \]
Скориставшись формулою \(Y = AF\), перетворимо \(R\) в редуковану матрицю:
\[ R_h = \frac{1}{N} AF (AF)^T = \frac{1}{N} AFF^T A^T = A \frac{1}{N} FF^T A^T. \tag{8.9} \]
Позначимо \(\frac{1}{N} FF^T=C\), відповідно: \(R_h=ACA^T\). Цей вираз називають теоремою факторного аналізу. Якщо загальні фактори не корельовані між собою, то \(C\) буде одиничною матрицею, отже \(R_h=AA^T\).
Методи обчислення спільності:
- метод квадрата коефіцієнта множинної кореляції;
- метод найбільшого коефіцієнта кореляції за рядком;
- метод оцінки середнього коефіцієнта кореляції за рядком;
- метод тріад для оцінки \(h_j\).
\[ h_j^2 = \frac{r_{jk} r{jl}}{r{kl}}, \tag{8.10} \]
де \(r_{jk}\) — коефіцієнт кореляції в рядку \(j\), що має найбільше значення стохастичного зв’язку між ознакою \(Y_j\) і змінною \(Y_k\);
\(r_{jl}\) — коефіцієнт кореляції, який має найбільше значення, що характеризує зв’язок ознаки \(Y_j \subset Y_l.\)
За методом першого центроїдного фактора обчислення \(h_j\) проводять таким чином:
\[ \hat{h}_j^2 = \frac{(\sum_{k=1}^n r_{jk})^2}{\sum_{k=1}^n \sum_{l=1}^2 r_{kl}}. \tag{8.11} \]
Таким чином за обчисленими спільностями визначають головні фактори. Через значення повної дисперсії та спільності можна обчислити внесок остаточної частки дисперсії.