5.2 Методи дискримінантного аналізу. Алгоритм лінійного дискримінантного аналізу Фішера для двох класів. Перевірка якості дискримінації

Для практичної реалізації дискримінантного аналізу необхідно знати апріорні ймовірності \(π_j\) і функції щільності ймовірності \(f_j (X)\). Вони можуть бути відомими з теоретичних міркувань або попередніх досліджень. Якщо ж вони невідомі, то їх замінюють статистичними оцінками, отриманими на основі наявних навчальних вибірок [4]. Як оцінки апріорних імовірностей часто беруть величини:

\[ π_j=\frac{n_j}{n_{sum}}, \tag{5.1} \]

де \(n_j\) — обсяг \(j\)-ї вибірки;

\(n_{sum}=n_1+n_2+⋯+n_k\) — сумарний обсяг навчальних вибірок.

Для оцінювання функцій щільності ймовірності застосовують два підходи (рис. 5.4). У першому (параметричний дискримінантний аналіз) припускають, що всі класи характеризуються функціями щільності ймовірності, які належать до однієї параметричної сім’ї \(fX(\theta)\) і розрізняються лише значеннями векторного параметра \(\theta\). У цьому випадку відповідні значення параметра \(\theta_j\) оцінюють за спостереженнями, що належать до \(j\)-ї вибірки. У другому підході (непараметричний дискримінантний аналіз) загальний вигляд функцій \(f_j(X)\) є невідомим. Тому необхідно використовувати спеціальні прийоми їх оцінювання (наприклад, будувати непараметричні оцінки гістограмного або ядерного типу) [4].

Методи дискримінантного аналізу

Рис. 5.4: Методи дискримінантного аналізу

Розглянемо геометричну інтерпретацію подання дискримінантних змінних. Проаналізуємо об’єкти, що належать двом різним множинам \(M_1\) і \(M_2\) (рис. 5.5).

Геометрична інтерпретація дискримінантних функцій і змінних

Рис. 5.5: Геометрична інтерпретація дискримінантних функцій і змінних

Як видно з рис. 5.5, кожен об’єкт характеризується в даному випадку двома змінними \(x_1\) і \(x_2\). Якщо розглядати проекції об’єктів (точок) на кожну вісь, то ці множини перетинаються. Тобто деякі об’єкти обох множин мають подібні характеристики за кожною змінною [1].

Для того, щоб найкращим чином розділити дві подані множини, слід побудувати відповідну лінійну комбінацію змінних \(x_1\) і \(x_2\). Для двовимірного простору це завдання зводиться до визначення нової системи координат. Причому нові осі \(L\) і \(C\) мають бути розташовані таким чином, щоб на осі \(L\) проекції об’єктів, які належать різним множинам, були максимально розділеними (рис. 5.6).

Вісь \(C\) перпендикулярна осі \(L\) і розділяє дві «множини» точок таким чином, щоб множини опинилися по різні боки від цієї прямої. Водночас ймовірність помилки класифікації має бути мінімальною [1]. Сформульовані умови слід ураховувати під час обчислення коефіцієнтів \(a_1\) і \(a_2\) дискримінатної функції:

\[ D=a_1x_1+a_2x_2. \tag{5.2} \]

Або у загальному випадку:

\[ D=a_0+a_1x_1+a_2x_2+...+a_k x_k. \]

Дискримінантна функція \(f(x)\)
комбінація показників, коефіцієнти якої підбираються за умови найбільшої різниці функції між відомими класами.
Константа дискримінантної функції
межа, що розділяє дві сукупності.

Константу обчислюють за формулою:

\[ C=\frac{1}{2}(\bar f_1+ \bar f_2). \tag{5.3} \]

Позначимо через \(x_{ij}\) середнє значення \(j\)-ї ознаки у об’єктів \(i\)-ї множини (класу). Тоді для множини \(M_1\) середнє значення функції \(f_1(x)\) буде таким: \(\bar f_1(x)=a_1 \bar x_{11}+a_2 \bar x_{12})\). Для множини \(M_2\) середнє значення функції \(f_2(x)\) дорівнюватиме: \(\bar f_1(x)=a_1(\bar x_{21})+a_2(\bar x_{22})\). Геометрична інтерпретація цих функцій — дві паралельні прямі, що проходять через центри класів (множин) (див. рис. 5.6).

Центри дискримінантних множин і константа дискримінації

Рис. 5.6: Центри дискримінантних множин і константа дискримінації

Коефіцієнти дискримінантної функції \(a_i\) визначаються таким чином, щоб \(f_1(x)\) і \(f_2(x)\) якомога більше розрізнялися між собою, тобто щоб для двох множин (класів) був максимальним вираз:

\[ \overline{f_1(x)}-\overline{f_2(x)}=\sum_{i=1}^n a_1 x_{2i}-\sum_{i=1}^n a_2 x_{2i}. \tag{5.4} \]

У цій ситуації має мінімізуватися внутрішньогрупова дисперсія — квадрат суми відхилень від середніх значень:

\[ \sum_{i=1}^2 \sum_{t=1}^{n_k} (Y_k - \overline{Y_k})=A’(X_1’ X_1 + X_2’ X_2). \tag{5.5} \]

Разом з тим міжгруппова варіація має бути максимальною, тобто:

\[ (\overline{Y_1} - \overline{Y_2})^2 = A (\overline{X_1} - \overline{X_2}) (\overline{X_1} - \overline{X})_2’ A. \tag{5.6} \]

За необхідності можна проводити розбиття множини об’єктів на \(k\) класів, потрібно розрахувати \(k\) дискримінантних функцій, оскільки класи будуть відокремлюватися один від одного індивідуальними роздільними поверхнями (рис. 5.7). Наприклад, коли є три сукупності, можна оцінити: функцію для дискримінації між сукупністю \(M1\) і множинами \(M2\) і \(M3\), взятими разом, та іншу функцію для дискримінації між сукупністю \(M2\) і сукупністю \(M3\) [2].

Дискримінантні функції для трьох вибірок

Рис. 5.7: Дискримінантні функції для трьох вибірок

Для оцінювання якості дискримінації слід використовувати критерій Фішера (\(F\)-критерій). Найкращий розподіл груп відбувається за максимального його значення:

\[ \frac{A(\overline X_1 - \overline X_2) (\overline X_1 - \overline X)_2’ A}{A’[(n_1 + n_2 - 2) S_*]A}\rightarrow \max; \tag{5.7} \]

\[ S_* = \frac{1}{n_1 - n_2 - 2} (X_1’ X_1 + X_2’ X_2). \tag{5.8} \]

Вектор коефіцієнтів обчислюється таким чином:

\[ A’=X_{*}^{-1} (\overline{X_1} + \overline{X_2}). \tag{5.9} \]

Алгоритм лінійного дискримінантного аналізу Фішера

Розглянемо алгоритм лінійного дискримінантного аналізу Фішера для двох класів за нормального закону розподілу показників. Для використання методу необхідно виконання таких умов:

  • обсяг вибірки має бути більшим, ніж кількість змінних;
  • кластери, серед яких здійснюють дискримінацію, підпорядковані багатовимірному нормальному розподілу;
  • класи можуть перетинатися, але їх центри мають бути достатньо віддаленими один від одного;
  • різниця між коваріаційними матрицями цих кластерів є статистично незначущою; кількість навчальних вибірок у кластері є меншою, ніж кількість дискримінантних функцій [4].

В основу методу лінійного дискримінантного аналізу, запропонованого Р. Фішером у 1936 р., закладене припущення, що класифікацію можна здійснити за допомогою лінійної комбінації дискримінантних (пояснювальних) змінних [4].

Нехай є дві генеральні сукупності \(X\) і \(Y\), що мають тривимірний закон розподілу з невідомими, але рівними коваріаційними матрицями. З них узяті навчальні вибірки з обсягами \(n_1\) в \(X\) и \(n_2\) в \(Y\). Розглянемо алгоритм методу:

  1. Задають вхідні матриці \(X\) і \(Y\) з об’єктами \(n_1\) і \(n_2\), відповідно: \[ X = \left(\begin{array}{c} x_{11} & x_{12}& x_{13} \\ x_{21} & x_{22}& x_{23} \\ x_{31} & x_{32}& x_{33} \end{array}\right); \> \> \> \> Y = \left(\begin{array}{c} y_{11} & y_{12} & y_{13} \\ y_{21} & y_{22} & y_{23} \\ y_{31} & y_{32}& y_{33} \end{array}\right). \]

  2. Записують нове спостереження \((z)\), яке варто класифікувати: \[ Z = \left(\begin{array}{c} Z_{11} & Z_{12} & Z_{13} \\ Z_{21} & Z_{22} & Z_{23} \\ Z_{31} & Z_{32} & Z_{33} \end{array}\right). \]

  3. Обчислюють вектори середніх значень кожної з підмножин: \[ \overline{x} = \overline{x} = \left(\begin{array}{x}\bar{x}_1 \\ \bar{x}_2 \\ \bar{x}_3\end{array}\right) і \> \> \overline{y} = \left(\begin{array}{y}\bar{y}_1 \\ \bar{y}_2 \\ \bar{y}_3\end{array}\right) \bar{x}_j = \frac{1}{n_1} \sum_{i=1}^{n_1} x_{ij}. \]

  4. Обчислюють оцінки коваріаційних матриць \(S_x\) і \(S_y\): \[ S_x=(S_{ki})_x \> \> і \> \> S_y=(S_{ki})_y. \] Знаходимо елемент матриці \(\overline{S_x}\): \[ S_{ki}= \frac{1}{n_1} \sum_{i=1}^{n_1}(x_{ij} - \bar x_j)(x_{ik} - \bar x_k)= \overline{x_j x_k}- \overline{x_j x_k}=1,2,3, \] де \(x_j\) і \(x_k\) — середні значення.

  5. Визначають незміщену оцінку сумарної коваріаційної матриці: \[ \widehat{S}=\frac{1}{n_1+n_2-2}(n_1 S_x+n_2 S_y). \]

  6. Визначають матрицю, \(\widehat{S}^{-1}\), зворотну до \(\widehat{S}\).

  7. Обчислюють вектор оцінок дискримінантної функції: \[ a=\bar{S}^{-1}(\bar{x}-\bar{y}). \]

  8. Обчислюють оцінки векторів значень дискриминантної функції для матриць вихідних даних \(\widehat{U_x}=Xa, \> \widehat{U_y}=Ya\).

  9. Обчислюють середні значення оцінок дискримінантної функції: \[ \overline{\widehat{U_x}}=\frac{1}{n_1}\sum_{i=1}^{n_1} \widehat{u_{xi}}, \> \> \overline{\widehat{U_x}}=\frac{1}{n_1}\sum_{i=1}^{n_2} \widehat{u_{yi}}. \]

  10. Обчислюють константи: \[ \widehat{C}=\frac{1}{2} (\overline{\widehat{u_{x}}} + \overline{\widehat{u_{y}}}). \]

  11. Записують дискримінантну функцію і її економічну інтерпретацію.

  12. Для перевірки умови максимально чіткого поділу груп доцільно використовувати критерій «лямбда Уїлкса»: \[ L_W=\frac{1}{\lambda}, \] де \(λ\) знаходять відповідно до формули: \[ \lambda=F=\frac{a^TS_{xy}a}{a^T S*a} \rightarrow \max. \] За \(L_W→1\) групи поділені чітко. За \(L_W→0\) результати аналізу не можна використовувати. Вплив окремих показників на результати дискримінантного аналізу розраховують так: \[ R_{x_i}=\frac{a_j^*}{\sum_{j=1}^m |a_j^*|}, \] де \(|a_j^*|\) — модуль стандартизованої оцінки показника \(Х_j\).

  13. Обчислюють значення дискримінантної функції для \(v\)-го спостереження, що підлягає дискримінації, вирішивши рівняння: \[ \widehat{U_v}=z_{v1} a_1+z_{v2} a_2+z_{v3} a_3. \] Правила віднесення обєктів до класів наведені на рис. 5.8.

Правила віднесення об’єктів до класів

Рис. 5.8: Правила віднесення об’єктів до класів

Описаний алгоритм можна використовувати у випадку розподілу навчальної вибірки на два класи спостережень.