7.2 Метод «центра ваги»
Одним з найпоширеніших методів вибору репрезентантів груп є метод «центра ваги». Цільове призначення методу полягає у виборі репрезентантів, тобто ознак, які передають найбільш суттєві особливості багатовимірного набору вхідних ознак. Алгоритм методу наведений на рис. 7.1.

Рис. 7.1: Алгоритм методу центра ваги
На першому кроці алгоритму формуються матриці вихідних даних за кожною групою показників стану об’єкта дослідження \(Y_1,Y_2,…,Y_q,\) де \(q\) — кількість груп показників. Для \(k\)‑ї групи показників структура цієї матриці може бути визначена таким чином:
\[ Y_k = (y_{ij})_k, \> \> i = [1;m], \> \> j = [1;n], \]
де \(y_{ij}\) — значення \(i\)-го показника в \(j\)-му досліджуваному періоді (або для \(j\)-ого досліджуваного об’єкта);
\(m\) — кількість показників, що входять у \(k\)-ту групу;
\(n\) — кількість досліджуваних періодів (або об’єктів).
Можливі типи матриць вихідних даних наведені на рис. 7.2.

Рис. 7.2: Типи матриць вхідних даних
На другому кроці здійснюється процедура стандартизації за формулою 6.1. Альтернативними засобами стандартизації ознак є:
\[ z_{ij} = \frac{x_{ij}}{x_j^{\max} - x_j^{\min}}; \]
\[ z_{ij} = \frac{x_{ij}}{\overline{x_j}}. \]
Результатом цього кроку є набір матриць стандартизованих значень показників кожної групи \(Z_1, Z_2, …, Z_q\).
Описані обчислювальні процедури є основою для розрахунку матриць відстаней \(P_1, P_2, …, P_q\), елементи яких відображають ступінь близькості показників усередині кожної групи. Розглядаються такі міри відстані (рис. 7.3).

Рис. 7.3: Міри відстаней
Формули розрахунку різних мір відстаней наведені в табл. 7.1
Табл. 7.1
Міри відстані між об’єктами
Міра відстані між об’єктами | Формула розрахунку | Умови застосування |
---|---|---|
Евклідова відстань | \(d_{ij} = \sqrt{\sum_{k=1}^m (x_{ik} - (x_{jk}))^2},\) де \(x_{jk}\) — значення \(k\)-го показника, відповідно, у \(i\)-го та \(j\)-го об’єктів | Застосовується у випадку, якщо компоненти вектора спостережень \(X\) однорідні за фізичним змістом і однаково важливі для класифікації. Є найбільш використовуваною |
Зважена евклідова відстань | \(d_{ij} = \sqrt{\sum_{k=1}^m w_k (x_{ik} — (x_{jk}))^2},\) де \(w_k\) — вага, що приписується \(k\)-му показнику | Застосовується у випадку, коли кожному компоненту вектора \(X\) приписується вага, пропорційна ступеню важливості ознаки \(0≤w_k≤1\) |
Манхетенська відстань | \(d_{ij} = \frac{1}{m} \sum_{k=1}^m \mid x_{ik} - x_{jk} \mid\) | У більшості випадків ця міра відстані приводить до таких же результатів, що й евклідова відстань. Однак для цієї міри вплив окремих великих різниць (викидів) зменшується, оскільки вони не зводяться у квадрат |
Відстань Чебишева | \(d (z_i; z_j) = \max \mid z_{il} - z_{jl} \mid\) | Ця відстань використовується, коли дослідник прагне визначити два об’єкти як «різні», якщо вони відрізняться за якою-небудь однією координатою (яким-небудь одним виміром) |
Ступенева відстань | \(d(z_i, z_j) = (\sum_i \mid z_{il} - z_{jl} \mid^p)^{1/r},\) де \(p\) і \(r\) — параметри, які визначаються дослідником | Параметр \(p\) відповідає за поступове зважування різниць за окремими координатами, параметр \(r\) відповідає за прогресивне зважування великих відстаней між об’єктами. Якщо обидва параметра — \(r\) і \(p\) дорівнюють \(2\), то ця відстань збігається з евклідовою відстанню |
На четвертому кроці (рис. 7.1) здійснюється вибір так званих показників-репрезентантів груп з найбільш значущою інформацією, властивою групі, за такими певними правилами (рис. 7.4, 7.5, 7.6).

Рис. 7.4: Правило вибору показників-репрезентантів для групи з одного елемента
У групах, де кількість показників більше двох, розраховується сума відстаней кожного показника до інших показників групи: \(ρ_i = \sum_{j=1}^{m} ρ(z_i, z_j),\) де \(m\) — число показників групи. До складу показників-репрезентантів входить показник з найменшою сумою відстаней: \(ρ_s = \min ρ_i\) (рис. 7.5).

Рис. 7.5: Правило вибору репрезентантів для групи із кількістю елементів більше двох
У групах, де кількість показників дорівнює двом, визначається сума відстаней показників, що входять у групу, від показників-репрезентантів: \(\sum_{j=1}^k ρ(z_i, z_j),\) де \(k\) — кількість показників-репрезентантів. До репрезентантів групи, де кількість показників дорівнює двом, належить той показник, у якого сума відстаней від відособлених елементів і елементів-репрезентантів, виділених із груп елементів із числом більше двох, максимальна: \(ρ_s = \max_i p_i\) (рис. 7.6).

Рис. 7.6: Правило вибору показників-репрезентантів для групи з кількістю елементів, яке дорівнює двом
Таким чином, результатом четвертого кроку є набір показників-репрезентантів \(x = (x_1,x_2,…,x_k),\) що описують найбільш важливі аспекти стану об’єкта дослідження.