7.2 Метод «центра ваги»

Одним з найпоширеніших методів вибору репрезентантів груп є метод «центра ваги». Цільове призначення методу полягає у виборі репрезентантів, тобто ознак, які передають найбільш суттєві особливості багатовимірного набору вхідних ознак. Алгоритм методу наведений на рис. 7.1.

Рис. 7.1: Алгоритм методу центра ваги

На першому кроці алгоритму формуються матриці вихідних даних за кожною групою показників стану об’єкта дослідження \(Y_1,Y_2,…,Y_q,\) де \(q\) — кількість груп показників. Для \(k\)‑ї групи показників структура цієї матриці може бути визначена таким чином:

\[ Y_k = (y_{ij})_k, \> \> i = [1;m], \> \> j = [1;n], \]

де \(y_{ij}\) — значення \(i\)-го показника в \(j\)-му досліджуваному періоді (або для \(j\)-ого досліджуваного об’єкта);

\(m\) — кількість показників, що входять у \(k\)-ту групу;

\(n\) — кількість досліджуваних періодів (або об’єктів).

Можливі типи матриць вихідних даних наведені на рис. 7.2.

Рис. 7.2: Типи матриць вхідних даних

На другому кроці здійснюється процедура стандартизації за формулою 6.1. Альтернативними засобами стандартизації ознак є:

\[ z_{ij} = \frac{x_{ij}}{x_j^{\max} - x_j^{\min}}; \]

\[ z_{ij} = \frac{x_{ij}}{\overline{x_j}}. \]

Результатом цього кроку є набір матриць стандартизованих значень показників кожної групи \(Z_1, Z_2, …, Z_q\).

Описані обчислювальні процедури є основою для розрахунку матриць відстаней \(P_1, P_2, …, P_q\), елементи яких відображають ступінь близькості показників усередині кожної групи. Розглядаються такі міри відстані (рис. 7.3).

Рис. 7.3: Міри відстаней

Формули розрахунку різних мір відстаней наведені в табл. 7.1

Табл. 7.1

Міри відстані між об’єктами

Міра відстані між об’єктами	Формула розрахунку	Умови застосування
Евклідова відстань	\(d_{ij} = \sqrt{\sum_{k=1}^m (x_{ik} - (x_{jk}))^2},\) де \(x_{jk}\) — значення \(k\)-го показника, відповідно, у \(i\)-го та \(j\)-го об’єктів	Застосовується у випадку, якщо компоненти вектора спостережень \(X\) однорідні за фізичним змістом і однаково важливі для класифікації. Є найбільш використовуваною
Зважена евклідова відстань	\(d_{ij} = \sqrt{\sum_{k=1}^m w_k (x_{ik} — (x_{jk}))^2},\) де \(w_k\) — вага, що приписується \(k\)-му показнику	Застосовується у випадку, коли кожному компоненту вектора \(X\) приписується вага, пропорційна ступеню важливості ознаки \(0≤w_k≤1\)
Манхетенська відстань	\(d_{ij} = \frac{1}{m} \sum_{k=1}^m \mid x_{ik} - x_{jk} \mid\)	У більшості випадків ця міра відстані приводить до таких же результатів, що й евклідова відстань. Однак для цієї міри вплив окремих великих різниць (викидів) зменшується, оскільки вони не зводяться у квадрат
Відстань Чебишева	\(d (z_i; z_j) = \max \mid z_{il} - z_{jl} \mid\)	Ця відстань використовується, коли дослідник прагне визначити два об’єкти як «різні», якщо вони відрізняться за якою-небудь однією координатою (яким-небудь одним виміром)
Ступенева відстань	\(d(z_i, z_j) = (\sum_i \mid z_{il} - z_{jl} \mid^p)^{1/r},\) де \(p\) і \(r\) — параметри, які визначаються дослідником	Параметр \(p\) відповідає за поступове зважування різниць за окремими координатами, параметр \(r\) відповідає за прогресивне зважування великих відстаней між об’єктами. Якщо обидва параметра — \(r\) і \(p\) дорівнюють \(2\), то ця відстань збігається з евклідовою відстанню

На четвертому кроці (рис. 7.1) здійснюється вибір так званих показників-репрезентантів груп з найбільш значущою інформацією, властивою групі, за такими певними правилами (рис. 7.4, 7.5, 7.6).

Рис. 7.4: Правило вибору показників-репрезентантів для групи з одного елемента

У групах, де кількість показників більше двох, розраховується сума відстаней кожного показника до інших показників групи: \(ρ_i = \sum_{j=1}^{m} ρ(z_i, z_j),\) де \(m\) — число показників групи. До складу показників-репрезентантів входить показник з найменшою сумою відстаней: \(ρ_s = \min⁡ ρ_i\) (рис. 7.5).

Рис. 7.5: Правило вибору репрезентантів для групи із кількістю елементів більше двох

У групах, де кількість показників дорівнює двом, визначається сума відстаней показників, що входять у групу, від показників-репрезентантів: \(\sum_{j=1}^k ρ(z_i, z_j),\) де \(k\) — кількість показників-репрезентантів. До репрезентантів групи, де кількість показників дорівнює двом, належить той показник, у якого сума відстаней від відособлених елементів і елементів-репрезентантів, виділених із груп елементів із числом більше двох, максимальна: \(ρ_s = \max_i⁡ p_i\) (рис. 7.6).

Рис. 7.6: Правило вибору показників-репрезентантів для групи з кількістю елементів, яке дорівнює двом

Таким чином, результатом четвертого кроку є набір показників-репрезентантів \(x = (x_1,x_2,…,x_k),\) що описують найбільш важливі аспекти стану об’єкта дослідження.