3.4 Приклади розрахунку мір подібностей

Приклад 3.1. Евклідова відстань

Евклідова відстань

Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1}\), \(x_{i2}\). Вихідні дані подано в табл. 2.1. Необхідно розрахувати матрицю евклідових відстаней між об’єктами.

Табл. 2.1: Вихідні дані
Ознака Об’єкт 1 Об’єкт 2 Об’єкт 3 Об’єкт 4
\(x_{i1}\) 8 6 4 5
\(x_{i2}\) 13 10 12 14

Розв’язання

Матриця відстаней має такі властивості:

  • симетричність відносно діагоналі;
  • властивість тотожності відстані, яка в матриці відстаней проявляється в наявності 0 по діагоналі матриці, оскільки відстань об’єкта з самим собою очевидно дорівнює 0, а також у наявності нульових значень для абсолютно подібних об’єктів;
  • значення відстаней у матриці завжди невід’ємні.

Розраховуємо матрицю евклідових відстаней за формулою:

\[ d_{ij}=\sqrt{\sum_{k=1}^m(x_{ik}-x_{jk})^2}. \]

Відстань між першим і другим об’єктом:

\[ d_{12}=\sqrt{(8-6)^2+(13-10)^2}=3,61. \]

Відстань між першим і третім об’єктом:

\[ d_{13}=\sqrt{(8-4)^2+(13-12)^2}=4,12. \]

Аналогічно розраховуємо відстані: \[ d_{14}=\sqrt{(8-5)^2+(13-14)^2}=3,16; \]

\[ d_{23}=\sqrt{(6-4)^2+(10-12)^2}=2,83; \]

\[ d_{24}=\sqrt{(6-5)^2+(10-14)^2}=4,12; \]

\[ d_{34}=\sqrt{(4-5)^2+(12-14)^2}=2,24. \]

Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця евклідових відстаней між об’єктами матиме вигляд, поданий у табл. 2.2.

Табл. 2.2: Матриця евклідових відстаней
№ об’єкта 1 2 3 4
1 0 3,61 4,12 3,16
2 3,61 0 2,83 4,12
3 4,12 2,83 0 2,24
4 3,16 4,12 2,24 0

Приклад 3.2. Зважена евклідова відстань

Зважена евклідова відстань

Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1},x_{i2}\). Вихідні дані подано в табл. 2.3. Необхідно розрахувати матрицю зважених евклідових відстаней між об’єктами, якщо ознаки мають різну вагу: \(w_1=0,6; w_2=0,4\).

Табл. 2.3: Вихідні дані
Ознака Об’єкт 1 Об’єкт 2 Об’єкт 3 Об’єкт 4
\(x_{i1}\) 10 14 9 8
\(x_{i2}\) 25 20 17 15

Розв’язання

Розраховуємо матрицю зважених евклідових відстаней за формулою:

\[ d_{ij}=\sqrt{\sum_{k=1}^mw_k(x_{ik}-x_{jk})^2}. \]

Відстань між першим і другим об’єктом:

\[ d_{12}=\sqrt{0,6\cdot(10-14)^2+0,4\cdot(25-20)^2}=4,43. \]

Відстань між першим і третім об’єктом:

\[ d_{13}=\sqrt{0,6\cdot(10-9)^2+0,4\cdot(25-17)^2}=5,12. \]

Аналогічно розраховуємо відстані: \[ d_{14}=\sqrt{0,6\cdot(10-8)^2+0,4\cdot(25-15)^2}=6,51; \]

\[ d_{23}=\sqrt{0,6\cdot(14-9)^2+0,4\cdot(20-17)^2}=4,31; \]

\[ d_{24}=\sqrt{0,6\cdot(14-8)^2+0,4\cdot(20-15)^2}=5,62; \]

\[ d_{34}=\sqrt{0,6\cdot(9-8)^2+0,4\cdot(17-15)^2}=1,48. \]

Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця зважених евклідових відстаней між об’єктами матиме вигляд, поданий у табл. 2.4.

Табл. 2.4: Матриця зважених евклідових відстаней
№ об’єкта 1 2 3 4
1 0 4,43 5,12 6,51
2 4,43 0 4,31 5,62
3 5,12 4,31 0 1,48
4 6,51 5,62 1,48 0

Приклад 3.3. Відстань city-block (Мангетенська)

Відстань city-block (Мангетенська)

Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1},x_{i2}\). Вихідні дані подано в табл. 2.5. Необхідно розрахувати матрицю відстаней city-block між об’єктами.

Табл. 2.5: Вихідні дані
Ознака Об’єкт 1 Об’єкт 2 Об’єкт 3 Об’єкт 4
\(x_{i1}\) 20 22 28 30
\(x_{i2}\) 10 12 15 16

Розв’язання

Розраховуємо матрицю відстаней city-block за формулою:

\[ d_{ij}=\sum_{k=1}^m|x_{ik}-x_{jk}|. \]

Відстань між першим і другим об’єктом:

\[ d_{12}=|20-22|+|10-12|=4. \]

Відстань між першим і третім об’єктом:

\[ d_{13}=|20-28|+|10-15|=13. \]

Аналогічно розраховуємо відстані між іншими об’єктами:

\[ d_{14}=|20-30|+|10-16|=16; \]

\[ d_{23}=|22-28|+|12-15|=9; \]

\[ d_{24}=|22-30|+|12-16|=12; \]

\[ d_{34}=|28-30|+|15-16|=3. \]

Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця відстаней city-block між об’єктами матиме вигляд, поданий у табл. 3.1.

Табл. 3.1: Матриця відстаней city-block
№ об’єкта 1 2 3 4
1 0 4 13 16
2 4 0 9 12
3 13 9 0 3
4 16 12 3 0

Приклад 3.4. Використання коефіцієнта Жаккара

Використання коефіцієнта Жаккара

П’ять досліджуваних об’єктів характеризуються трьома ознаками \(x_1,x_2,x_3\). Вихідні дані подано в табл. 3.2. Необхідно розрахувати матрицю відстаней між об’єктами на основі коефіцієнту Жаккара.

Табл. 3.2: Вихідні дані
Ознака Об’єкт 1 Об’єкт 2 Об’єкт 3 Об’єкт 4 Об’єкт 5
\(x_1\) 0 1 0 0 1
\(x_2\) 1 1 1 1 1
\(x_3\) 1 1 1 0 1

Розв’язання

Коефіцієнт подібності Жаккара є бінарною мірою подібності. Він обчислюється за формулою:

\[ J=\frac{a}{a+b+c}. \]

Таблиця спряженості \(2\times2\):

\(1\) \(0\)
\(1\) \(a\) \(b\)
\(0\) \(c\) \(d\)

Із таблиці спряженості отримуємо такі значення коефіцієнта Жаккара між відповідними елементами (матрицю подібності): для першого та другого об’єктів матриця спряженості має вигляд:

\(1\) \(0\)
\(1\) \(2\) \(0\)
\(0\) \(1\) \(0\)

\[ J_{12}=\frac{a}{a+b+c}=\frac{2}{2+0+1}=0,67. \]

Аналогічно розраховуємо коефіцієнти для інших пар об’єктів (табл. 3.3).

Табл. 3.3: Коефіцієнти Жаккара
Об’єкти 1 2 3 4 5
1 0 0,67 1,00 0,5 0,67
2 0,67 0 0,67 0,33 1,00
3 1,00 0,67 0 0,5 0,67
4 0,5 0,33 0,5 0 0,33
5 0,67 1,00 0,67 0,33 0

Відстані між об’єктами визначають за формулою:

\[ d_{ij}=1-J_{ij}. \]

Матриця відстаней між об’єктами подана в табл. 3.4.

Табл. 3.4: Матриця відстаней між об’єктами на основі коефіцієнтів Жаккара
Об’єкти 1 2 3 4 5
1 0 0,33 0,00 0,50 0,33
2 0,33 0 0,33 0,67 0,00
3 0,00 0,33 0 0,50 0,33
4 0,50 0,67 0,50 0 0,67
5 0,33 0,00 0,33 0,67 0

Отримані матриці відстаней є основою для проведення кластеризації. У кожній конкретній задачі вибір міри відстані здійснюється різним чином, з урахуванням головної мети дослідження, фізичної і статистичної природи використовуваної інформації тощо.