3.2 Термінологія кластерного аналізу

Кластерний аналіз передбачає виділення компактних, віддалених один від одного груп об’єктів, відшукує «природне» розбиття сукупності на області скупчення об’єктів. Він використовується, коли вихідні дані подані у вигляді матриць близькості, або відстаней між об’єктами, або у вигляді точок у багатовимірному просторі. Найбільш поширені дані другого виду, для яких кластерний аналіз орієнтований на виділення деяких геометрично віддалених груп, всередині яких об’єкти близькі.

У кластерному аналізі використовується така термінологія:

Кластер
клас, таксон, згущення, група, пучок.
КА
таксономія, автоматична класифікація, стратифікація, класифікація без вчителя, розпізнавання з самонавчанням.
Об’єкт
подія, предмет, таксономічна одиниця.
Ознака
змінна, характеристика, властивість.
Матриця вихідних даних
матриця \(X\) розмірністю \(n*m\): \[ X=\left(\begin{array}{c}X_{11} & X_{12} & ... & X_{1m}\\ X_{21} & X_{22} & ... & X_{2m} \\ ... & ... & ... & ... \\ X_{n1} & X_{n2} & ... & X_{nm} \end{array}\right), \] де \(n\) — об’єкти (рядки матриці); \(m\) — ознаки (стовпці матриці).
Подібність
подоба, близькість, зв’язність, асоціативність.
Коефіцієнти подібності
міра подібності (коефіцієнт кореляції, міри відстані, коефіцієнт асоціативності, ймовірнісний коефіцієнт подібності).
Матриця подібності або матриця близькості
матриця \(D\) розмірністю \(n*n\) або \(R\) розмірністю \(m*m\).

У результаті застосування методів кластерного аналізу досліджувані об’єкти розбиваються на певні кластери, які мають такі властивості: щільність, дисперсія, розмір, форма, віддільність (рис. 3.4).

Властивості кластера

Рис. 3.4: Властивості кластера

Поняття «тип кластерної структури» не має формального визначення і залежить від нормування ознак і методу кластеризації.

Типи кластерних структур

Приклади різних типів кластерних структур (кластери з центром; стрічкові кластери; кластери, що з’єднані перемичками; кластери, що перекриваються; кластери, що утворені не за подібністю, а за іншими типами регулярності; відсутність кластерів) наведено на рис. 3.5:

Типи кластерних структур

Рис. 3.5: Типи кластерних структур

Формальна постановка задачі кластеризації

Нехай \(X\) — множина об’єктів, \(Y\) — множина номерів (імен) кластерів. Задана функція відстані між об’єктами \(ρ(x,x')\). Сформована навчальна вибірка об’єктів \(X^m={x_1,…x_m}\subset X\). Необхідно розбити вибірку на непересічні підмножини, які називають кластерами, так, щоб кожен кластер складався з об’єктів, близьких за метрикою \(ρ\), а об’єкти різних кластерів істотно відрізнялися. Кожному об’єкту \(x_i∈X^m\) приписується номер кластера \(Y_i\).

У навчальній вибірці об’єкти можуть характеризуватися ознаками, які вимірюються в різних одиницях. Однак для кластерного аналізу ознаки повинні бути однорідними, тобто вимірюватися в порівняльних шкалах. Для цього здійснюється нормування початкових даних (рис. 3.6):

Вимоги до початкових даних

Рис. 3.6: Вимоги до початкових даних

Основні етапи кластерного аналізу
  1. Відбір вибірки для кластеризації (наявність апріорної інформації).
  2. Визначення множини ознак, за якими будуть оцінюватися об’єкти.
  3. Обчислення міри подібності між об’єктами відповідно до обраної метрики.
  4. Групування об’єктів у кластери за допомогою тієї чи іншої процедури об’єднання.
  5. Перевірка достовірності результатів КА.