5.3 Приклади використання дискримінантного аналізу

Приклад 5.1. Використання дискримінантного аналізу для двох класів

Використання дискримінантного аналізу для двох класів

Задано вибірку з підприємств двох класів. Нехай у галузі виділено дві групи підприємств: передова, що складається із чотирьох підприємств, та інша, що містить п’ять підприємств. Оцінювання ефективності діяльності кожного підприємства галузі здійснювалося за трьома показниками: середньорічна вартість основних виробничих фондів (ОПФ), середня чисельність промислово-виробничого персоналу (ПВП), балансовий прибуток. Вихідні дані подано в табл. 5.1.

Табл. 5.1

Вихідні дані

Класи Підприємства x1 x2 x3
А 1 9,26 1,37 1,45
2 9,38 1,49 1,3
3 12,11 1,44 1,37
4 10,81 1,42 1,65
Б 5 5,49 1,1 1,02
6 6,61 1,23 0,88
7 4,32 1,39 0,62
8 7,37 1,38 1,09
  • \(x_1\) — продуктивність праці;
  • \(x_2\) — коефіцієнт змінності обладнання;
  • \(x_3\) — фондовіддача активної частини ОПФ.

Необхідно визначити можливість віднесення підприємства до передової групи підприємств галузі. \(z_1 = (9; 6,7; 0,79; 1,24); z_2= (10; 9,42; 0,7; 2,03)\).

Розв’язання

  1. Знайдемо середні значення за кожною з ознак групи, де \(n_1=n_x=4; n_2=n_y=5\).
\(x_{cp}\) \(y_{cp}\)
10,39 5,95
1,43 1,28
1,44 0,9
  1. Визначимо оцінки коваріаційних матриць за формулою: \[ S_{kj}(x)=\frac{1}{n_i} \sum_{i=1}^{n_1} (x_{ij}- \bar{x}_j)(x_{ik}- \bar{x}_k). \] Отримаємо:
Sx Sy
1,35795 0,00505 0,024475 1,330119 0,003112 0,164456
0,00505 0,00185 -0,00295 0,003112 0,014225 -0,00809
0,024475 -0,00295 0,017169 0,164456 -0,00809 0,032319

\[ S_{12}=\frac{1}{4} \times \sum_{i=1}^4 (x_{i1} - \bar{x}_1) \times (x_{i2} - \bar{x}_{ij}) = \\ = \frac{1}{4} \times ((9,26-10,39)\times(1,37-4,42))+...+ \\ + (10,81 - 10,39) \times (1,37-4,42). \]

  1. Знайдемо незміщену оцінку сумарної коваріаційної матриці за формулою: \[ S=\frac{1}{n_1+n_2-2}(n_1 S_x + n_2 S_x); \\ \widehat{S}= \frac{1}{4+5-2} (4S_x + 5S_y). \] Oтримуємо: \[ S= \left(\begin{array}{c} 1,792 & 0,0054 & 0,126\\ 0,0054 & 0,0107 & -0,0074\\ 0,126 & -0,0074 & 0,033 \end{array}\right). \]

  2. Знаходимо зворотну коваріаційну матрицю до \(\widehat{S}\):  
    \[ S^{-1}= \left(\begin{array}{c} 0,8434 & -3,1398 & -3,9245\\ -3,1398 & 122,3002 & 39,4131\\ -3,9245 & 39,4131 & 54,1254 \end{array}\right). \]

  3. Знаходимо вектор коефіцієнтів дискримінації за формулою: \[ A’=\widehat{S}^{-1} (\bar{X} - \bar{Y}). \] Oтримуємо: \(A = (1,1481; \> 26,1074; \> 17,8073).\) \[ S_{12}=\frac{1}{4} \cdot \sum_{i=1}^4 (x_{i1} - \bar{x}_1) \cdot (x_{i2} - \bar{x}_{ij}) = \\ = \frac{1}{4} \cdot ((9,26-10,39)\cdot(1,37-4,42))+...+ \\ + (10,81 - 10,39)\cdot (1,37-4,42). \]

  4. Обчислимо оцінки дискримінантних функцій \(\widehat{U_x}= Xa\).

\(U_x\) \(U_y\)
72,2196 53,1850
72,8192 55,3718
75,8947 52,2898
78,8661 63,9000
  1. Визначаємо середні значення отриманих оцінок: \(\widehat{u_x}=74,9499; \> \> \widehat{u_x}=56,18666\).

  2. Обчислимо константу дискримінації за формулою: \[ \widehat{C}= \frac{1}{2}(\bar{f}_1 + \bar{f}_2). \] Oтримуємо: \(C = 65,568\).

  3. Визначимо можливість включення об’єднання у групу передових. Оскільки матриця \(Z\) подана одним рядком, то \(\widehat{U_y}\) позначимо \(\widehat{U_z}\): \[ \widehat{u_z} = z_1 a_1 + z_2 a_2 + z_3 a_3. \\ \widehat{u_z} = 50,399 \> \> z_2=65,240. \] Середнє значення дискримінантної функції менше ніж константа \(\widehat{C} \ \ (\widehat{u_z}<\widehat{C})\). Отже, об’єднання \(z\) з характеристиками \(Z^T\) слід віднести до 2-ї групи підприємств галузі.

  4. Розрахуємо критерій «лямбда Уїлкса»:

  • внутрішньогрупова варіація дорівнює: \[ Q_{SW}=\sum_{i=1}^{n_1} (Y_{1i}-Y_{1G})^2 + (Y_{2i}-Y_{2G})^2 = 19,94+6,25=26,19; \]
  • міжгрупова варіація дорівнює: \[ Q_{sb}=n_1×(Y_{1G}-Y_g )^2+n_2 (Y_{2G}-Y_g )^2=4×5,01+4×5,01=40,1; \]
  • критерій «лямбда Уїлкса»: \[ \lambda=\frac{40,1}{26,19}=1,53; \\ L_w=\frac{1}{1+1,53}=0,395=>дискримінація \> груп. \]
  1. Розрахуємо вплив окремих параметрів: \[ R_{x_i}=\frac{|a_j^*|}{\sum_{j=1}^m |a_j^*|}. \] \(R_{x1} = 2,55; R_{x2} = 57,94; R_{x3} = 39,52.\) Отже, на \(57,94\%\) дискримінація на класи пояснюється другою ознакою, на \(39,52\%\) — третьою, на \(2,55\%\) — першою.

  2. За шкалою інтерпретацій: \(Z<56,19/2,\) \(Z < 28,1\) — 1-й клас, \(28,1≤Z≤74,95\) — невизначеність, \(Z > 37,48\) — 2-й клас.

Приклад 5.2. Розв’язання прикладу для випадку з чотирма класами

Приклад для випадку з чотирма класами

Дано 32 підприємства, розділені на чотири групи за чотирма ознаками (табл. 5.2).

Табл. 5.2

Вхідні дані

№ п/п \(X_1\) \(X_2\) \(X_3\) \(X_4\) \(S\)
1 1,75 5,25 8 16 1
2 2,65 5,5 11 15 1
3 1,8 4,47 10 6 1
4 2,5 4,75 7 9 1
5 3 5 12 7 1
6 3,54 4,71 8 6 1
28 4 1,75 7 2 4
29 -3,03 1 8 2 4
30 3,25 0,88 6 3 4
31 3,69 0,49 5 2 4
32 4,2 1 7 2 4

Визначте, до якого класу варто віднести два нових підприємства.

33 3,85 4,47 10,5 8
34 4,6 6,2 8,7 9

Розв’язання

  1. Знайдемо середні значення для класів, квадрантів \((x_1,x_2(1-18), \> x_3,x_4 (1-18), \> x_1,x_2 (19-32), \> x_3, x_4 (19-32))\) і для всіх 32-х об’єктів узятих сукупно для класів:
    • для першого квадранта: \(\overline{x_{1(11-18)}} = \frac{56,48}{18}=3,14;\) \(\overline{x_{2(1-18)}} = \frac{71,89}{18}=3,99;\)
    • для другого: \(\overline{x_{3(1-18)}} = \frac {193}{18} = 10,72;\) \(\overline{x_{4(1-18)}} = \frac{150}{18}=8,83;\)
    • для третього: \(\overline{x_{1(19-32)}}=\frac{61,46}{14}=4,39;\) \(\overline{x_{1(19-32)}} = \frac{37,12}{14}=2,65;\)
    • для четвертого: \(\overline{x_{1(19-32)}} = \frac{127}{14}=9,07;\) \(\overline{x_{1(19-32)}} = \frac{69}{14}=4,93;\)
    • для всіх об’єктів: \((3,69; 3,41; 10,00; 6,84).\)
A B C D
2,57 4,27 5,58 3,49
4,47 3,04 4,51 1,26
9,50 13,17 13,17 6,00
9,00 7,00 7,33 3,13
  1. Обчислимо у квадрантах значення лінійних відхилень \(L_1, L_2, L_3, L_4 (L_i = x_i-x_{icp})\) для кожного об’єкта, що входить у відповідний квадрант.

  2. За отриманими відхиленнями знайдемо дисперсії для кожного квадранта: \[ G_{ij}=\sum_i (x_i- \bar{x}_j)^2. \] Отримуємо:

\(\sigma_1\) \(\sigma_2\) \(\sigma_3\) \(\sigma_4\)
32,48 51,3 312,54 320,93
  1. Обчислимо значення коваріацій \(V_{12}, V_{13}, V_{14}, V_{23}, V_{24}, V_{34}\). Для цього необхідно перемножити відповідні відхилення. Наприклад, \(V_{12} = L_1 \cdot L_2\).
№ п/п \(V_{12}\) \(V_{13}\) \(V_{14}\) \(V_{23}\) \(V_{24}\) \(V_{34}\)
1 -1,74 3,778 -10,6 -3,42 9,63 -20,9
2 -0,74 -0,14 -3,25 0,418 10,04 1,852
3 -0,64 0,966 3,121 -0,34 -1,11 1,685
4 -0,48 2,374 -0,43 -2,81 0,504 -2,48
5 -0,14 -0,18 0,184 1,286 -1,34 -1,7
6 0,288 -1,1 -0,94 -1,95 -1,67 6,352
7 0,072 0,23 1,059 -0,16 -0,75 2,407
29 2,245 1,456 3,981 1,769 4,836 3,138
30 2,018 3,499 2,197 5,441 3,416 5,923
31 1,511 2,847 2,048 8,8 6,33 11,92
32 0,313 0,392 0,554 3,421 4,836 6,066
  1. Знайдемо параметри \(a_1\) і \(a_2\) для першого квадранта за такою формулою матричних визначників: \[ \begin{cases}a_1 \cdot \sigma_{11} + a_{12} \cdot \sigma_{12} =\bar x_{11} - \bar x_{12} \\a_1 \cdot \sigma_{21} + a_{12} \cdot \sigma_{22} =\bar x_{21} - \bar x_{22} \end{cases}. \] Звідси: \[ \sigma_{11}=\frac{\sum (x_1 - \bar x_1)^2(1-18)}{18} = 0,8435; \] \[ \sigma_{11}=\frac{\sum (x_1 - \bar x_1)^* \times (x_2 - \bar x_2)(1-18)}{18} = -0,5687; \] \[ \sigma_{22}=\frac{\sum (x_2 - \bar x_2)^2(1-18)}{18} = 0,6859. \] Підставляючи вже знайдені середні значення \(x\) і \(σ\), запишемо систему рівнянь: \[ \begin{cases}a_1\cdot 0,8435 - a_2 \cdot 0,5687 = 2,5741 - 4,2650 \\ -a_1\cdot 0,5687 - a_2 \cdot 0,6859 = 3,0416 \end{cases}. \] Розв’язавши систему, \(a_1\) отримуємо: \(a_1=-1,3617;\) \(a_2=0,9530.\) Аналогічно розв’язуємо систему для всіх параметрів усіх квадрантів. Отримуємо такі оцінки параметрів:
Квадранти I II III IV
Параметри \(a_1 =-1,3617\) \(a_3=-0,6840\) \(a_1 = 0,4164\) \(a_3 = 0,3056\)
Параметри \(a_2 = 0,9530\) \(a_4 = 0,0864\) \(a_2 = 0,9146\) \(a_4 = 0,341\)
  1. На основі отриманих параметрів обчислюємо значення дискримінантних функцій: \(f(x)_{12}\) — за параметрами \(x_1\) і \(x_2\); \(f(x)_{34}\) — за параметрами \(x_3\) і \(x_4\). Причому значення функцій для конкретного об’єкту розраховуються відповідно до конкретного значення оцінок параметрів для певного квадранта.
№ п/п \(f(x)_{12}\) \(f(x)_{34}\)
1 2,62 -4,09
2 1,633 -6,228
3 1,809 -6,322
4 1,123 -4,01
5 0,68 -7,603
6 -0,332 -4,954
7 0,182 -6,408
29 2,176 3,127
30 2,158 2,857
31 1,985 2,21
32 2,663 2,821

Обчислюємо суму частинних функцій в межах кожного класу.

Класи 1 2 3 4
\(f(x)_{12}\) 9,056 -17,454 38,698 20,893
\(f(x)_{34}\) -68,645 -50,407 39,146 23,194
  1. Знайдемо значення відповідних субфункцій і субконстант: Для \(f(x)_{12}:\) \[ C^I = a_1 \overline{x_{11(1-12)}} + a_2 \overline{x_{21(1-12)}} = 1,36×2,57+0.953×4,47=0,755; \\ C^{II} = a_1 \overline{x_{12(13-18)}} + a_2 \overline{x_{22(13-18)}} = 1,36×4,265+0,953×3,042=-2,909; \\ C^{III} = a_1 \overline{x_{13(19-24)}} + a_2 \overline{x_{23(19-24)}} = 0,416×5,585+0,915×4,51=6,45; \\ C^{IV} = a_1 \overline{x_{14(25-32)}} + a_2 \overline{x_{24(25-32)}} = 0,416×3,494+0,915×1,258=2,605; \\ \frac{C^{I} + C^{II}}{2} = \frac{0,755-2,909}{2} = 1,077; \\ \frac{C^{III} + C^{IV}}{2} = \frac{6,45-2,605}{2} = 4,53; \\ C_{(x_1x_2)} = \frac{C^{I} + C^{II} + C^{III} + C^{IV}}{4} = 1,725. \] Для \(f(x)_{34}\): \[ C^I = a_3 \overline{x_{31(1-12)}} + a_3 \overline{x_{41(1-12)}} = -0,684×9.5+0,086×9=-5,72; \\ C^{II} = a_3 \overline{x_{32(13-18)}} + a_3 \overline{x_{42(13-18)}} = -0,684×13,167+0,086×7=-8,41; \\ C^{III} = a_3 \overline{x_{33(19-24)}} + a_3 \overline{x_{43(19-24)}} = 0,306×13,167+0,341×7,33=6,52; \\ C^{IV} = a_3 \overline{x_{34(25-32)}} + a_3 \overline{x_{4(1-12)}} = -0,606×6+0,341×3,125=2,899; \\ \frac{C^{I} + C^{II}}{2} = \frac{-5,72-8,41}{2} = -7,061; \\ \frac{C^{III} + C^{IV}}{2} = \frac{6,52-2,89}{2} = 4,712; \\ C_{(x_1x_2)} = \frac{C^{I} + C^{II} + C^{III} + C^{IV}}{4} = -1,725. \]

  2. Записуємо загальні функції \(F(32)\) і загальні константи за 32-ма об’єктами. Для цього будуємо систему рівнянь за чотирма класами об’єктів з чотирма невідомими: \[ \begin{cases}a_1\cdot f_{11} + a_2\cdot f_{12} + a_3\cdot f_{13} + a_4\cdot f_{14} = \overline{x_{11}} + \overline{x_{12}} + \overline{x_{13}} + \overline{x_{14}}\\ a_1\cdot f_{21} + a_2\cdot f_{22} + a_3\cdot f_{23} + a_4\cdot f_{24} = \overline{x_{21}} + \overline{x_{22}} + \overline{x_{23}} + \overline{x_{24}} \\ a_1\cdot f_{31} + a_2\cdot f_{32} + a_3\cdot f_{33} + a_4\cdot f_{34} = \overline{x_{31}} + \overline{x_{32}} + \overline{x_{33}} + \overline{x_{34}} \\ a_1\cdot f_{41} + a_2\cdot f_{42} + a_3\cdot f_{43} + a_4\cdot f_{44} = \overline{x_{41}} + \overline{x_{42}} + \overline{x_{43}} + \overline{x_{44}}\end{cases}. \] Розв’язавши систему рівнянь, отримуємо: \[ a_1 = -13.0507; \> \> a_2=1,1251; \> \> a_3=1,0337; \> \> a_4=-1,0445. \]

  3. Знайдемо шукане значення загальної функції для 32-x об’єктів: \[ C_{заг}=a_1 \cdot x_1+a_2 \cdot x_2+a_3 \cdot x_3+a_4 \cdot x_4 = \\ =-13,05 \cdot 3,69+1,14 \cdot 3,401+10 \cdot 1,034-6,84 \cdot 1,045=-41,0442. \]

  4. Обчислимо значення загальних функцій для кожного класу: \[ f_1 = a_1 \cdot \overline{x_{11}} + a_2 \cdot \overline{x_{21}} + a_3 \cdot \overline{x_{31}} + a_4 \cdot \overline{x_{41}} = -28,1; \\ f_2 = -45,91; \> \> f_3 = -61,82; \> \> f_4 = 41,23. \]

  5. Обчислюємо значення за новими об’єктами (33–34): \[ f_{33}=-13,051 \cdot 2,3 + 6,11 \cdot 1,135 + 1,034 \cdot 10-1,045 \cdot 14=-27,35; \\ f_{34} = -13,051 \cdot 5,21 + 1,135 \cdot 1,18 + 1,034 \cdot 13 - 1,045 \cdot 4 = -57,395. \]

  6. Визначимо приналежність об’єктів 33–34 до одного з класів. Об’єкт належить саме до того класу, дискримінант якого більше його функції. Якщо функція об’єкта більше дискримінанти, то об’єкт відносять до наступного класу: \(33:-27,3671>-28,1002\), отже об’єкт належить до 1 класу.