3.2 Термінологія кластерного аналізу
Кластерний аналіз передбачає виділення компактних, віддалених один від одного груп об’єктів, відшукує «природне» розбиття сукупності на області скупчення об’єктів. Він використовується, коли вихідні дані подані у вигляді матриць близькості, або відстаней між об’єктами, або у вигляді точок у багатовимірному просторі. Найбільш поширені дані другого виду, для яких кластерний аналіз орієнтований на виділення деяких геометрично віддалених груп, всередині яких об’єкти близькі.
У кластерному аналізі використовується така термінологія:
- Кластер
- клас, таксон, згущення, група, пучок.
- КА
- таксономія, автоматична класифікація, стратифікація, класифікація без вчителя, розпізнавання з самонавчанням.
- Об’єкт
- подія, предмет, таксономічна одиниця.
- Ознака
- змінна, характеристика, властивість.
- Матриця вихідних даних
- матриця \(X\) розмірністю \(n*m\): \[ X=\left(\begin{array}{c}X_{11} & X_{12} & ... & X_{1m}\\ X_{21} & X_{22} & ... & X_{2m} \\ ... & ... & ... & ... \\ X_{n1} & X_{n2} & ... & X_{nm} \end{array}\right), \] де \(n\) — об’єкти (рядки матриці); \(m\) — ознаки (стовпці матриці).
- Подібність
- подоба, близькість, зв’язність, асоціативність.
- Коефіцієнти подібності
- міра подібності (коефіцієнт кореляції, міри відстані, коефіцієнт асоціативності, ймовірнісний коефіцієнт подібності).
- Матриця подібності або матриця близькості
- матриця \(D\) розмірністю \(n*n\) або \(R\) розмірністю \(m*m\).
У результаті застосування методів кластерного аналізу досліджувані об’єкти розбиваються на певні кластери, які мають такі властивості: щільність, дисперсія, розмір, форма, віддільність (рис. 3.4).

Рис. 3.4: Властивості кластера
Поняття «тип кластерної структури» не має формального визначення і залежить від нормування ознак і методу кластеризації.
Типи кластерних структур
Приклади різних типів кластерних структур (кластери з центром; стрічкові кластери; кластери, що з’єднані перемичками; кластери, що перекриваються; кластери, що утворені не за подібністю, а за іншими типами регулярності; відсутність кластерів) наведено на рис. 3.5:
Рис. 3.5: Типи кластерних структур
Формальна постановка задачі кластеризації
Нехай \(X\) — множина об’єктів, \(Y\) — множина номерів (імен) кластерів. Задана функція відстані між об’єктами \(ρ(x,x')\). Сформована навчальна вибірка об’єктів \(X^m={x_1,…x_m}\subset X\). Необхідно розбити вибірку на непересічні підмножини, які називають кластерами, так, щоб кожен кластер складався з об’єктів, близьких за метрикою \(ρ\), а об’єкти різних кластерів істотно відрізнялися. Кожному об’єкту \(x_i∈X^m\) приписується номер кластера \(Y_i\).
У навчальній вибірці об’єкти можуть характеризуватися ознаками, які вимірюються в різних одиницях. Однак для кластерного аналізу ознаки повинні бути однорідними, тобто вимірюватися в порівняльних шкалах. Для цього здійснюється нормування початкових даних (рис. 3.6):
Рис. 3.6: Вимоги до початкових даних
Основні етапи кластерного аналізу
- Відбір вибірки для кластеризації (наявність апріорної інформації).
- Визначення множини ознак, за якими будуть оцінюватися об’єкти.
- Обчислення міри подібності між об’єктами відповідно до обраної метрики.
- Групування об’єктів у кластери за допомогою тієї чи іншої процедури об’єднання.
- Перевірка достовірності результатів КА.