2.5 Основні методи визначення стійких статистичних оцінок

Після виявлення похибок у даних ставиться задача оцінювання параметрів вибіркової сукупності. Для цього використовують: усунення з вибіркової сукупності похибок та оцінювання параметрів за усіченою сукупністю; модифікацію досліджуваних даних. Підходи до вирішення проблеми грубих помилок та їх характеристика наведені на рис. 2.14.

Підходи до вирішення проблеми грубих помилок

Рис. 2.14: Підходи до вирішення проблеми грубих помилок

Основні методи визначення стійких статистичних оцінок подані на рис. 2.15.

Методи оцінки параметрів вибіркової сукупності

Рис. 2.15: Методи оцінки параметрів вибіркової сукупності

Оцінка Пуанкаре для розрахунку середньої за усіченою сукупністю (урізана середня):

\[ T(\alpha)=\frac{1}{n-2k}\sum_{i=k+1}^{n-k}x_i, \tag{2.6} \]

де \(k\) — число грубих похибок;

\(k≤αn\) — ціла частина від добутку \(αn\);

\(n\) — обсяг вибірки;

\(α\) — деяка функція величини засмічення вибірки \(ξ\) (знаходять за таблицями).

Оцінка Вінзора передбачає заміну ознакових значень, що засмічують вибірку, на модифіковані (вінзоровані) значення з усунутими або зменшеними похибками. Середня за Вінзором визначається з відомим рівнем \(α(0<α<\frac{1}{2})\) за формулою:

\[ W(\alpha)=\frac{1}{n}\left(\sum_{i+k+2}^{n-k-1}x_i+k(x_{k+1}+x_{n-k})\right). \tag{2.7} \]

Робастні оцінювання за Пуанкаре та Вінзором дають гарні результати на вибірках з симетричним розподілом засмічення, коли грубі похибки групуються приблизно на одній відстані від центра в нижній і верхній частинах статистичної сукупності.

Метод послідовного «виправлення» даних (метод Хубера) використовує вихідну величину \((k)\), визначену з урахуванням ступеня «засміченості» статистичної сукупності \((ξ)\), що визначає крок модифікації «хибних» спостережень. Оцінка середньої за методом Хубера визначається за формулою:

\[ H=\frac{1}{n}\left(\sum_{|x_i-H|<k}x_i+(n_2+n_1)k\right), \tag{2.8} \]

де \(H\) — стійка оцінка середньої;

\(k\) — величина відхилення від центра сукупності, приймає значення з урахуванням питомої ваги «грубих похибок» у сукупності \((ξ)\);

\(n_1\) — чисельність групи спостережень із сукупності, що відрізняються найменшими значеннями: \(х_i< H-k\), або значення в інтервалі \((-\infty; H-k)\);

\(n_2\) — чисельність групи спостережень із сукупності, що відрізняються найбільшими значеннями: \(х_i<H+k\), або значення в інтервалі \((H+k;\infty)\).

У якості початкової оцінки \(H\) може бути використана звичайна середня або медіана. Потім на кожній ітерації виконується групування вибіркової сукупності на три частини. В одну частину відносять «дійсні» признакові значення, які залишаються без зміни \((|х_i-H|<k)\). У дві інші частини сукупності (для \(х_i>H+k\) і \(х_i<H-k\)) відносять «похибки», які заміняються, відповідно, на величини \(х_i-k\) і \(х_i+k\). За «дійсними» та модифікованими даними на кожній ітерації визначається нова оцінка середньої \(H\); ітерація відновлюється. Ітерації повторюються поки всі спостереження не перейдуть в інтервал «дійсних» значень: \(|х_i-H|<k\).

Оцінка \(H\), за методом Хубера, є досить ефективною, але швидко втрачає оптимальні властивості зі збільшенням засміченості вибірки (зростанням \(ξ\)).

Приклад

У табл. 2.1 наведені дані за показниками обсягу виробленої продукції та отриманого прибутку для вибіркових двадцяти машинобудівних підприємств банків України (в млн грн).

Табл. 2.1: Вихідні дані
№ п/п Обсяг виробленої продукції, тис. грн Прибуток, тис. грн № п/п Обсяг виробленої продукції, тис. грн Прибуток, тис. грн
1 2515,1 986,8 11 4214,3 1130
2 669,7 263 12 333,4 200,2
3 89,2 123 13 158,6 167,6
4 155,4 49,2 14 611 312,2
5 150,1 150 15 134,5 137
6 129 43,2 16 128,5 590
7 128,3 143,1 17 1559,4 600
8 216,5 250,1 18 1599,2 70,3
9 772,6 276,4 19 374,5 136,2
10 863,5 303 20 146,2 200

Необхідно дослідити дану статистичну сукупність спостережень, виявити похибки в вибірці даних за допомогою методів робастного оцінювання. Для виявлення похибок використайте критерій Граббса, Тітьєна та Мура, \(F\)-критерій Фішера. Відповідно до розглянутого алгоритму подамо візуальний аналіз сукупності об’єктів.

Графік зміни показників підприємств машинобудування наведено на рис. 2.16 і рис. 2.17.

Обсяг виробленої продукції

Рис. 2.16: Обсяг виробленої продукції

Варто зазначити, що на основі візуального аналізу можна висунути гіпотезу про неоднорідність вибірки та наявність похибок. Найбільш значні зрушення в обсягах виробленої продукції спостерігаються у підприємств 1, 11, 17, 18. Це дозволяє провести більш детальний та ґрунтовний аналіз сукупності на наявність аномальних помилок і спостережень у вибірці. Дослідимо наявність похибок у сукупності даних на основі таких критеріїв: \(T\), \(L\), \(L’\), \(E\) та \(F\)-критерію.

Прибуток

Рис. 2.17: Прибуток

Розрахунки на наявність похибок у сукупності даних за показником обсягу виробленої продукції подані в табл. 2.2.

Табл. 2.2: Розрахунки на наявність похибок за показником обсягу виробленої продукції
№ п/п Обсяг продукції \(T_p\) \((x_i-\bar{x})^2\) \((x_i-\bar{x}_k)^2\) \((x_i-\bar{x}_k)^2\) \((x_i-\bar{x}_{k’})^2\)
П11 4214,30 3,42 12019048,92 11780032,97
П1 2515,10 1,74 3124586,52 3003307,24
П18 1599,20 0,84 725478,06 1305433,20 667661,01 1256509,12
П17 1559,40 0,80 659262,80 1216069,82 604203,47 1168866,24
П10 863,50 0,11 13467,60 165531,44 6626,82 148410,76
П9 772,60 0,02 632,52 99827,91 90,15 86636,73
П2 669,70 -0,08 6045,06 45392,67 12632,58 36649,72
П14 611,00 -0,13 18618,60 23825,64 29273,41 17620,22
П19 374,50 -0,37 139091,70 6747,71 166133,47 10765,89
П12 333,40 -0,41 171437,40 15189,19 201326,97 20984,08
П8 216,50 -0,52 281907,90 57669,35 319897,41 68517,68
П13 158,60 -0,58 346744,32 88830,49 388745,69 102181,76
П4 155,40 -0,58 350523,20 90748,22 392746,29 104237,82
П5 150,10 -0,59 356827,02 93969,50 399417,35 107688,21
П20 146,20 -0,59 361501,56 96375,75 404362,12 110263,06
П15 134,50 -0,60 375707,70 103777,04 419378,94 118170,13
П6 129,00 -0,61 382480,40 107350,88 426532,74 121981,73
П16 128,50 -0,61 383099,10 107678,78 427186,08 122331,23
П7 128,30 -0,61 383346,72 107810,07 427447,56 122471,18
П3 89,20 -0,65 433293,06 135015,42
\(\sum\) 20533100,2 3867243,1 20077002,2 3724285,6

Розрахунки на наявність похибок у сукупності даних за показником чистого прибутку наведені в табл. 2.3.

Табл. 2.3: Розрахунки на наявність похибок за показником чистого прибутку
№ п/п Чистий прибуток \(T_p\) \((x_i-\bar{x})^2\) \((x_i-\bar{x}_k)^2\) \((x_i-\bar{x}_k)^2\) \((x_i-\bar{x}_{k’})^2\)
П11 1130,0 2,83 678045,20 631239,08
П1 986,8 2,34 462719,66 424198,93
П17 600,0 1,01 86104,10 142108,06 69963,19 125931,83
П16 590,0 0,98 80335,40 134668,61 64773,08 118934,45
П14 312,2 0,02 31,75 7951,69 542,63 4498,22
П10 303,0 -0,01 12,71 6395,56 1055,89 3348,79
П9 276,4 -0,10 909,93 2848,59 3492,15 977,73
П2 263,0 -0,15 1897,91 1597,78 5255,44 319,29
П8 250,1 -0,19 3188,30 732,91 7292,21 24,69
П12 200,2 -0,37 11313,51 521,11 18304,59 2018,82
П20 200,0 -0,37 11356,10 530,28 18358,74 2036,83
П13 167,6 -0,48 19311,27 3072,24 28188,54 6011,09
П5 150,0 -0,54 24512,60 5333,06 34408,19 9049,95
П7 143,1 -0,56 26720,81 6388,45 37015,62 10410,38
П15 137,0 -0,58 28752,29 7400,78 39400,04 11692,37
П19 136,2 -0,59 29024,23 7539,06 39718,28 11866,02
П3 123,0 -0,63 33696,11 10005,56 45153,89 14916,04
П18 70,3 -0,81 55821,15 23325,77 70328,09 30565,97
П4 49,2 -0,89 66236,74 30216,10
П6 43,2 -0,91 69361,12 32338,03
\(\sum\) 1689351 422973,6 1538689 352602,5

Значення \(T\), \(L\), \(L’\), \(E\)-критеріїв та їх табличні значення наведені в табл. 2.4.

Табл. 2.4: Розрахунки на наявність похибок за показником обсягу виробленої продукції
Критерії Обсяг виробленої продукції Чистий прибуток Табличні значення
1 \(T_p=\frac{x_{ij}-\bar{x}_j}{s_j}\) \(T_p=3,42\) \(T_p=2,83\)
\(T_p=2,34\)
\(T_t=2,263\)
П11 П11
П1
2 \(L=\frac{\sum_{i=1}^{n-k}(x_{i}-\bar{x}_k)^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) \(L_p=0,188\) \(L_p=0,188\) \(L_t=0,484\)
П11
П1
П11
П1
3 \(L’=\frac{\sum_{i=k+1}^{n}(x_{i}-\bar{x}_k)^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) \(L’_p=0,98\) \(L’_p=0,91\) \(L’_t(k=1)=0,639\)
\[L’_t(k=2)=0,484\]
4 \(L=\frac{\sum_{i=k+1}^{n-k’}(x_{i}-\bar{x}_{k’})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) \(E_p=0,18\) \(E_p=0,21\) \(E(k=3)=0,302\)
\(E(k=4)=0,22\)
П11
П1
П3
П11
П1
П4
П6

Проведений аналіз доводить, що розраховані значення критеріїв підтверджують гіпотезу про неоднорідність сукупності спостережень за досліджуваними показниками. Не відповідають загальній вибірці, тобто є похибками, підприємства П11 і П1 за всіма визначеними критеріями, а також достатньо відмінними за відповідним показником є підприємства П3, П4, П6.

Проведемо оцінювання багатовимірної сукупності даних на основі \(F\)-критерію Фішера. Матриця коваріацій та обернена до неї подані на рис. 2.18.

Матриця коваріацій та обернена до неї

Рис. 2.18: Матриця коваріацій та обернена до неї

Так, відстань Махаланобіса для першого спостереження визначається в такий спосіб:

\[ d_1^m\left(\begin{array}{c}1767,65\\ 680,235\end{array}\right)\cdot\left(\begin{array}{c}3,28E-06\\ -9,59E-06\end{array} \ \ \ \begin{array}{c}-9,59E-06\\ 3,99E-05\end{array}\right)\cdot (1767,65 \ \ \ \ 680,235)=5,64. \]

\(F\)-критерій для перевірки гіпотези про істотність відхилення випадкового вектора \(X\) розраховується в такий спосіб:

\[ F_p=\frac{(20-2)\cdot20}{2(20-1)\cdot2}\cdot5,64=26,71. \]

Розрахунок \(F\)-критерію Фішера за досліджуваною сукупністю наведено в табл. 2.5.

Табл. 2.5: Розрахунок \(F\)-критерію Фішера
№ п/п Обсяг виробленої продукції Чистий прибуток \(d^m\) \(F_p\)
П1 2515,1 986,8 5,64 26,71
П2 669,7 263 0,03 0,14
П3 89,2 123 0,45 2,12
П4 155,4 49,2 0,87 4,11
П5 150,1 150 0,35 1,68
П6 129 43,2 0,90 4,25
П7 128,3 143,1 0,38 1,81
П8 216,5 250,1 0,48 2,26
П9 772,6 276,4 0,05 0,25
П10 863,5 303 0,05 0,25
П11 4214,3 1130 11,71 55,47
П12 333,4 200,2 0,17 0,80
П13 158,6 167,6 0,34 1,60
П14 611 312,2 0,08 0,37
П15 134,5 137 0,39 1,83
П16 128,5 590 7,82 37,06
П17 1559,4 600 1,03 4,86
П18 1599,2 70,3 8,46 40,10
П19 374,5 136,2 0,39 1,87
П20 146,2 200 0,41 1,94
\(F_t=F(0,01;\,2;\,17)=6,11\)
\(F_t=F(0,05;\,2;\,17)=3,59\)

За даним критерієм можна дійти висновку:

  • з рівнем значущості \((\alpha=0,01)\) такі підприємства, як П1, П11, П16, П18 є аномальними для досліджуваної сукупності;
  • з рівнем значущості \((\alpha=0,05)\) такі підприємства, як П4, П6 і П17 за досліджуваними показниками будуть відрізнятися від значень загальної вибірки. Подальший аналіз досліджуваної сукупності передбачає розрахунок стійких статистичних оцінок Пуанкаре, Вінзора, Хубера для побудови адекватних і статистично значущих моделей.