2.4 Статистичні критерії виявлення грубих помилок
У практиці оцінювання розрізняють такі статистичні критерії виявлення грубих помилок для одновимірних і багатовимірних даних:
- одновимірна сукупність:
- \(T\)-критерій Граббса;
- \(L\)-критерій;
- \(L’\)-критерій;
- \(E\)-критерій.
- багатовимірна сукупність:
- критерій Фішера \((F)\).
Розглянемо запропоновані критерії та алгоритми їх розрахунку більш детально.
Тест для виявлення похибок, заснований на розрахунку T‑критерію Граббса
Даний критерій є простим, що робить його легким для застосування в аналізі, але має ряд недоліків. Зокрема, недостатню точність (дає досить грубі оцінки); нечутливість до маскувальних ефектів (коли похибки групуються досить близько у віддаленості від основної маси спостережень). Етапи алгоритму \(T\)‑критерію Граббса наведено на рис. 2.10.

Рис. 2.10: Алгоритм \(T\)-критерію Граббса
Оцінювання грубих похибок на основі L- і E‑критеріїв (Тітьєна та Мура)
\(L\)-критерій застосовується для виявлення грубих похибок у верхній частині ранжованого ряду даних, розраховується в такий спосіб:
\[ L=\frac{\sum_{i=1}^{n-k}(x_i-\bar{x}_k)^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}, \tag{2.1} \]
де \(x_i\) — вибірка \(i\)-го спостереження за \(j\)-ю ознакою;
\(n\) — обсяг вибірки;
\(k\) — число об’єктів, підозрюваних на наявність похибки;
\(\bar{x}\) — середнє значення для всієї сукупності;
\(\bar{x}_k\) — середня, розрахована за \(n-k\) спостереженнями, що залишилися після відкидання \(k\) грубих похибок, «зверху» ранжованого ряду даних.
Алгоритм \(L\)-критерію наведено на рис. 2.11.

Рис. 2.11: Алгоритм \(L\)-критерію
\(L’\)-критерій застосовується для виявлення грубих похибок у нижній частині ранжованого ряду даних і розраховується в такий спосіб:
\[ L’=\frac{\sum_{i=k+1}^{n}(x_i-\bar{x}_k)^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}, \tag{2.2} \]
де \(\bar{x}_k\) — середня, розрахована за \(n-k\) спостереженнями, що залишилися після відкидання \(k\) грубих помилок, «знизу» ранжованого ряду даних.
\(E\)-критерій використовується за наявності у вибірці грубих похибок, розташованих у верхній та нижній частинах ранжованого ряду даних. Він розраховується в такий спосіб:
\[ E=\frac{\sum_{i=k+1}^{n-k’}(x_i-\bar{x}_{k’})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}, \tag{2.3} \]
де \(\bar{x}_{k’}\) — середня, розрахована за даними після відкидання з вибірки найменших \((k)\) і найбільших \((k')\) значень, які розглядаються як похибки.
Розглянуті критерії \(L\), \(L’\) і \(E\) мають табульовані критичні значення для заданого рівня значущості \((α)\) за відомого обсягу вибірки \((n)\) і кількості похибок \((k)\). Якщо розрахункові значення критеріїв менше за критичні \(C_{α,k}\), то похибки в даних, які перевіряються, є грубими, тобто істотно відхиляються від основного масиву даних. Якщо \(L, L', E>C_{α,k}\), то дані є типовими для досліджуваної вибіркової сукупності.
Оцінювання багатовимірної сукупності даних на основі F‑критерію Фішера
У багатовимірному випадку похибками сукупності даних вже є не окремі значення, а вектор значень — аномальний об’єкт. Для оцінювання багатовимірного спостереження використовують відстань Махаланобіса, що розраховується за формулою:
\[ d^m=(X-\bar{X}’)\sum^{-1}(X-\bar{X}), \tag{2.4} \]
де \(X\) — вектор значень, досліджуваних на похибку;
\(\bar{X}\) — вектор середніх значень для багатовимірної сукупності;
\(\sum\) — матриця коваріацій.
\(F\)-критерій для перевірки гіпотези про істотність відхилення випадкового вектора \(X\) розраховують в такий спосіб:
\[ F_p=\frac{(n-m)n}{2(n-1)m}(X-\bar{X})\sum^{-1}(X-\bar{X}). \tag{2.5} \]
Алгоритм \(F\)-критерію Фішера наведено на рис. 2.12.

Рис. 2.12: Алгоритм \(F\)-критерію Фішера
У випадку наявності значної кількості похибок, багатовимірна сукупність перевіряється ітеративним методом (рис. 2.13).

Рис. 2.13: Ітеративний метод перевірки багатовимірної сукупності за наявності значної кількості похибок
Для \(F\)-критерію число ступенів свободи дорівнює відповідно: \(ν_1=m\) і \(ν_2=n-m-1\). Із заданим рівнем значущості \((α)\), якщо \(F_p>F_{α,ν_1,ν_2}\), досліджуваний об’єкт є аномальним. У протилежному випадку, коли \(F_p \leq F_{α,ν_1,ν_2}\), відхилення випадкового вектора від вектора середніх значень є допустимим, а гіпотеза про «похибки» сукупності відкидається.