4.3 Критерії якості класифікації методами кластерного аналізу
Заключним етапом процедури кластеризації є оцінювання якості отриманої класифікації. Використання різних методів кластерного аналізу для тієї самої сукупності призводить до різних класифікацій об’єктів (різне число кластерів, різна ступінь близькості об’єктів). Істотний вплив на характеристики кластерної структури надають:
- набір ознак кластеризації;
- тип алгоритму кластеризації (метод кластерного аналізу);
- вибір міри подібності між об’єктами.
Виникає проблема вибору найбільш якісної класифікації об’єктів, яка вирішується за допомогою критеріїв якості класифікації об’єктів. Міру якості класифікації прийнято називати функціоналом, або критерієм якості. Найкращим за обраним функціоналом вважають таку класифікацію об’єктів, в якій досягається екстремальне (максимальне або мінімальне) значення функціоналу якості.
- Функціонал (або критерій якості)
- деяка міра якості класифікації. Прагне до екстремуму \((\min / \max)\) (рис. 4.17).
Рис. 4.17: Критерії якості класифікації
На рис. 4.17 вказані формули, де \(l\) — номер кластера \((l=1,2,…,k);\)
\(\bar x_l\) — центр \(l\)-го кластера;
\(x_i\) — вектор значень змінних для \(i\)-го об’єкта, що входить в \(l\)-й кластер;
\(d^2(x_i, \bar x_l)\) — квадрат відстані між \(i\)-м об’єктом і центром \(l\)-го кластера;
\(d_{ij}^2\) — квадрат всередньокласових відстаней між об’єктами;
\(σ_{ij}^2\) — дисперсія \(j\)-ї змінної в кластері \(S_l\).
Для оцінювання якості розбиття за мірою віддаленості кластерів один від одного використовують середні міжкласові відстані. Для перевірки гіпотези про рівність векторів середніх для багатовимірних сукупностей використовується критерій Хоттелінга.