2.5 Основні методи визначення стійких статистичних оцінок
Після виявлення похибок у даних ставиться задача оцінювання параметрів вибіркової сукупності. Для цього використовують: усунення з вибіркової сукупності похибок та оцінювання параметрів за усіченою сукупністю; модифікацію досліджуваних даних. Підходи до вирішення проблеми грубих помилок та їх характеристика наведені на рис. 2.14.

Рис. 2.14: Підходи до вирішення проблеми грубих помилок
Основні методи визначення стійких статистичних оцінок подані на рис. 2.15.

Рис. 2.15: Методи оцінки параметрів вибіркової сукупності
Оцінка Пуанкаре для розрахунку середньої за усіченою сукупністю (урізана середня):
\[ T(\alpha)=\frac{1}{n-2k}\sum_{i=k+1}^{n-k}x_i, \tag{2.6} \]
де \(k\) — число грубих похибок;
\(k≤αn\) — ціла частина від добутку \(αn\);
\(n\) — обсяг вибірки;
\(α\) — деяка функція величини засмічення вибірки \(ξ\) (знаходять за таблицями).
Оцінка Вінзора передбачає заміну ознакових значень, що засмічують вибірку, на модифіковані (вінзоровані) значення з усунутими або зменшеними похибками. Середня за Вінзором визначається з відомим рівнем \(α(0<α<\frac{1}{2})\) за формулою:
\[ W(\alpha)=\frac{1}{n}\left(\sum_{i+k+2}^{n-k-1}x_i+k(x_{k+1}+x_{n-k})\right). \tag{2.7} \]
Робастні оцінювання за Пуанкаре та Вінзором дають гарні результати на вибірках з симетричним розподілом засмічення, коли грубі похибки групуються приблизно на одній відстані від центра в нижній і верхній частинах статистичної сукупності.
Метод послідовного «виправлення» даних (метод Хубера) використовує вихідну величину \((k)\), визначену з урахуванням ступеня «засміченості» статистичної сукупності \((ξ)\), що визначає крок модифікації «хибних» спостережень. Оцінка середньої за методом Хубера визначається за формулою:
\[ H=\frac{1}{n}\left(\sum_{|x_i-H|<k}x_i+(n_2+n_1)k\right), \tag{2.8} \]
де \(H\) — стійка оцінка середньої;
\(k\) — величина відхилення від центра сукупності, приймає значення з урахуванням питомої ваги «грубих похибок» у сукупності \((ξ)\);
\(n_1\) — чисельність групи спостережень із сукупності, що відрізняються найменшими значеннями: \(х_i< H-k\), або значення в інтервалі \((-\infty; H-k)\);
\(n_2\) — чисельність групи спостережень із сукупності, що відрізняються найбільшими значеннями: \(х_i<H+k\), або значення в інтервалі \((H+k;\infty)\).
У якості початкової оцінки \(H\) може бути використана звичайна середня або медіана. Потім на кожній ітерації виконується групування вибіркової сукупності на три частини. В одну частину відносять «дійсні» признакові значення, які залишаються без зміни \((|х_i-H|<k)\). У дві інші частини сукупності (для \(х_i>H+k\) і \(х_i<H-k\)) відносять «похибки», які заміняються, відповідно, на величини \(х_i-k\) і \(х_i+k\). За «дійсними» та модифікованими даними на кожній ітерації визначається нова оцінка середньої \(H\); ітерація відновлюється. Ітерації повторюються поки всі спостереження не перейдуть в інтервал «дійсних» значень: \(|х_i-H|<k\).
Оцінка \(H\), за методом Хубера, є досить ефективною, але швидко втрачає оптимальні властивості зі збільшенням засміченості вибірки (зростанням \(ξ\)).
Приклад
У табл. 2.1 наведені дані за показниками обсягу виробленої продукції та отриманого прибутку для вибіркових двадцяти машинобудівних підприємств банків України (в млн грн).
№ п/п | Обсяг виробленої продукції, тис. грн | Прибуток, тис. грн | № п/п | Обсяг виробленої продукції, тис. грн | Прибуток, тис. грн |
---|---|---|---|---|---|
1 | 2515,1 | 986,8 | 11 | 4214,3 | 1130 |
2 | 669,7 | 263 | 12 | 333,4 | 200,2 |
3 | 89,2 | 123 | 13 | 158,6 | 167,6 |
4 | 155,4 | 49,2 | 14 | 611 | 312,2 |
5 | 150,1 | 150 | 15 | 134,5 | 137 |
6 | 129 | 43,2 | 16 | 128,5 | 590 |
7 | 128,3 | 143,1 | 17 | 1559,4 | 600 |
8 | 216,5 | 250,1 | 18 | 1599,2 | 70,3 |
9 | 772,6 | 276,4 | 19 | 374,5 | 136,2 |
10 | 863,5 | 303 | 20 | 146,2 | 200 |
Необхідно дослідити дану статистичну сукупність спостережень, виявити похибки в вибірці даних за допомогою методів робастного оцінювання. Для виявлення похибок використайте критерій Граббса, Тітьєна та Мура, \(F\)-критерій Фішера. Відповідно до розглянутого алгоритму подамо візуальний аналіз сукупності об’єктів.
Графік зміни показників підприємств машинобудування наведено на рис. 2.16 і рис. 2.17.
Рис. 2.16: Обсяг виробленої продукції
Варто зазначити, що на основі візуального аналізу можна висунути гіпотезу про неоднорідність вибірки та наявність похибок. Найбільш значні зрушення в обсягах виробленої продукції спостерігаються у підприємств 1, 11, 17, 18. Це дозволяє провести більш детальний та ґрунтовний аналіз сукупності на наявність аномальних помилок і спостережень у вибірці. Дослідимо наявність похибок у сукупності даних на основі таких критеріїв: \(T\), \(L\), \(L’\), \(E\) та \(F\)-критерію.
Рис. 2.17: Прибуток
Розрахунки на наявність похибок у сукупності даних за показником обсягу виробленої продукції подані в табл. 2.2.
№ п/п | Обсяг продукції | \(T_p\) | \((x_i-\bar{x})^2\) | \((x_i-\bar{x}_k)^2\) | \((x_i-\bar{x}_k)^2\) | \((x_i-\bar{x}_{k’})^2\) |
---|---|---|---|---|---|---|
П11 | 4214,30 | 3,42 | 12019048,92 | 11780032,97 | ||
П1 | 2515,10 | 1,74 | 3124586,52 | 3003307,24 | ||
П18 | 1599,20 | 0,84 | 725478,06 | 1305433,20 | 667661,01 | 1256509,12 |
П17 | 1559,40 | 0,80 | 659262,80 | 1216069,82 | 604203,47 | 1168866,24 |
П10 | 863,50 | 0,11 | 13467,60 | 165531,44 | 6626,82 | 148410,76 |
П9 | 772,60 | 0,02 | 632,52 | 99827,91 | 90,15 | 86636,73 |
П2 | 669,70 | -0,08 | 6045,06 | 45392,67 | 12632,58 | 36649,72 |
П14 | 611,00 | -0,13 | 18618,60 | 23825,64 | 29273,41 | 17620,22 |
П19 | 374,50 | -0,37 | 139091,70 | 6747,71 | 166133,47 | 10765,89 |
П12 | 333,40 | -0,41 | 171437,40 | 15189,19 | 201326,97 | 20984,08 |
П8 | 216,50 | -0,52 | 281907,90 | 57669,35 | 319897,41 | 68517,68 |
П13 | 158,60 | -0,58 | 346744,32 | 88830,49 | 388745,69 | 102181,76 |
П4 | 155,40 | -0,58 | 350523,20 | 90748,22 | 392746,29 | 104237,82 |
П5 | 150,10 | -0,59 | 356827,02 | 93969,50 | 399417,35 | 107688,21 |
П20 | 146,20 | -0,59 | 361501,56 | 96375,75 | 404362,12 | 110263,06 |
П15 | 134,50 | -0,60 | 375707,70 | 103777,04 | 419378,94 | 118170,13 |
П6 | 129,00 | -0,61 | 382480,40 | 107350,88 | 426532,74 | 121981,73 |
П16 | 128,50 | -0,61 | 383099,10 | 107678,78 | 427186,08 | 122331,23 |
П7 | 128,30 | -0,61 | 383346,72 | 107810,07 | 427447,56 | 122471,18 |
П3 | 89,20 | -0,65 | 433293,06 | 135015,42 | ||
\(\sum\) | 20533100,2 | 3867243,1 | 20077002,2 | 3724285,6 |
Розрахунки на наявність похибок у сукупності даних за показником чистого прибутку наведені в табл. 2.3.
№ п/п | Чистий прибуток | \(T_p\) | \((x_i-\bar{x})^2\) | \((x_i-\bar{x}_k)^2\) | \((x_i-\bar{x}_k)^2\) | \((x_i-\bar{x}_{k’})^2\) |
---|---|---|---|---|---|---|
П11 | 1130,0 | 2,83 | 678045,20 | 631239,08 | ||
П1 | 986,8 | 2,34 | 462719,66 | 424198,93 | ||
П17 | 600,0 | 1,01 | 86104,10 | 142108,06 | 69963,19 | 125931,83 |
П16 | 590,0 | 0,98 | 80335,40 | 134668,61 | 64773,08 | 118934,45 |
П14 | 312,2 | 0,02 | 31,75 | 7951,69 | 542,63 | 4498,22 |
П10 | 303,0 | -0,01 | 12,71 | 6395,56 | 1055,89 | 3348,79 |
П9 | 276,4 | -0,10 | 909,93 | 2848,59 | 3492,15 | 977,73 |
П2 | 263,0 | -0,15 | 1897,91 | 1597,78 | 5255,44 | 319,29 |
П8 | 250,1 | -0,19 | 3188,30 | 732,91 | 7292,21 | 24,69 |
П12 | 200,2 | -0,37 | 11313,51 | 521,11 | 18304,59 | 2018,82 |
П20 | 200,0 | -0,37 | 11356,10 | 530,28 | 18358,74 | 2036,83 |
П13 | 167,6 | -0,48 | 19311,27 | 3072,24 | 28188,54 | 6011,09 |
П5 | 150,0 | -0,54 | 24512,60 | 5333,06 | 34408,19 | 9049,95 |
П7 | 143,1 | -0,56 | 26720,81 | 6388,45 | 37015,62 | 10410,38 |
П15 | 137,0 | -0,58 | 28752,29 | 7400,78 | 39400,04 | 11692,37 |
П19 | 136,2 | -0,59 | 29024,23 | 7539,06 | 39718,28 | 11866,02 |
П3 | 123,0 | -0,63 | 33696,11 | 10005,56 | 45153,89 | 14916,04 |
П18 | 70,3 | -0,81 | 55821,15 | 23325,77 | 70328,09 | 30565,97 |
П4 | 49,2 | -0,89 | 66236,74 | 30216,10 | ||
П6 | 43,2 | -0,91 | 69361,12 | 32338,03 | ||
\(\sum\) | 1689351 | 422973,6 | 1538689 | 352602,5 |
Значення \(T\), \(L\), \(L’\), \(E\)-критеріїв та їх табличні значення наведені в табл. 2.4.
Критерії | Обсяг виробленої продукції | Чистий прибуток | Табличні значення | |
---|---|---|---|---|
1 | \(T_p=\frac{x_{ij}-\bar{x}_j}{s_j}\) | \(T_p=3,42\) |
\(T_p=2,83\) \(T_p=2,34\) |
\(T_t=2,263\) |
П11 |
П11 П1 |
|||
2 | \(L=\frac{\sum_{i=1}^{n-k}(x_{i}-\bar{x}_k)^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) | \(L_p=0,188\) | \(L_p=0,188\) | \(L_t=0,484\) |
П11 П1 |
П11 П1 |
|||
3 | \(L’=\frac{\sum_{i=k+1}^{n}(x_{i}-\bar{x}_k)^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) | \(L’_p=0,98\) | \(L’_p=0,91\) |
\(L’_t(k=1)=0,639\) \[L’_t(k=2)=0,484\] |
4 | \(L=\frac{\sum_{i=k+1}^{n-k’}(x_{i}-\bar{x}_{k’})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\) | \(E_p=0,18\) | \(E_p=0,21\) |
\(E(k=3)=0,302\) \(E(k=4)=0,22\) |
П11 П1 П3 |
П11 П1 П4 П6 |
Проведений аналіз доводить, що розраховані значення критеріїв підтверджують гіпотезу про неоднорідність сукупності спостережень за досліджуваними показниками. Не відповідають загальній вибірці, тобто є похибками, підприємства П11 і П1 за всіма визначеними критеріями, а також достатньо відмінними за відповідним показником є підприємства П3, П4, П6.
Проведемо оцінювання багатовимірної сукупності даних на основі \(F\)-критерію Фішера. Матриця коваріацій та обернена до неї подані на рис. 2.18.
Рис. 2.18: Матриця коваріацій та обернена до неї
Так, відстань Махаланобіса для першого спостереження визначається в такий спосіб:
\[ d_1^m\left(\begin{array}{c}1767,65\\ 680,235\end{array}\right)\cdot\left(\begin{array}{c}3,28E-06\\ -9,59E-06\end{array} \ \ \ \begin{array}{c}-9,59E-06\\ 3,99E-05\end{array}\right)\cdot (1767,65 \ \ \ \ 680,235)=5,64. \]
\(F\)-критерій для перевірки гіпотези про істотність відхилення випадкового вектора \(X\) розраховується в такий спосіб:
\[ F_p=\frac{(20-2)\cdot20}{2(20-1)\cdot2}\cdot5,64=26,71. \]
Розрахунок \(F\)-критерію Фішера за досліджуваною сукупністю наведено в табл. 2.5.
№ п/п | Обсяг виробленої продукції | Чистий прибуток | \(d^m\) | \(F_p\) |
---|---|---|---|---|
П1 | 2515,1 | 986,8 | 5,64 | 26,71 |
П2 | 669,7 | 263 | 0,03 | 0,14 |
П3 | 89,2 | 123 | 0,45 | 2,12 |
П4 | 155,4 | 49,2 | 0,87 | 4,11 |
П5 | 150,1 | 150 | 0,35 | 1,68 |
П6 | 129 | 43,2 | 0,90 | 4,25 |
П7 | 128,3 | 143,1 | 0,38 | 1,81 |
П8 | 216,5 | 250,1 | 0,48 | 2,26 |
П9 | 772,6 | 276,4 | 0,05 | 0,25 |
П10 | 863,5 | 303 | 0,05 | 0,25 |
П11 | 4214,3 | 1130 | 11,71 | 55,47 |
П12 | 333,4 | 200,2 | 0,17 | 0,80 |
П13 | 158,6 | 167,6 | 0,34 | 1,60 |
П14 | 611 | 312,2 | 0,08 | 0,37 |
П15 | 134,5 | 137 | 0,39 | 1,83 |
П16 | 128,5 | 590 | 7,82 | 37,06 |
П17 | 1559,4 | 600 | 1,03 | 4,86 |
П18 | 1599,2 | 70,3 | 8,46 | 40,10 |
П19 | 374,5 | 136,2 | 0,39 | 1,87 |
П20 | 146,2 | 200 | 0,41 | 1,94 |
\(F_t=F(0,01;\,2;\,17)=6,11\) | ||||
\(F_t=F(0,05;\,2;\,17)=3,59\) |
За даним критерієм можна дійти висновку:
- з рівнем значущості \((\alpha=0,01)\) такі підприємства, як П1, П11, П16, П18 є аномальними для досліджуваної сукупності;
- з рівнем значущості \((\alpha=0,05)\) такі підприємства, як П4, П6 і П17 за досліджуваними показниками будуть відрізнятися від значень загальної вибірки. Подальший аналіз досліджуваної сукупності передбачає розрахунок стійких статистичних оцінок Пуанкаре, Вінзора, Хубера для побудови адекватних і статистично значущих моделей.