3.4 Приклади розрахунку мір подібностей
Приклад 3.1. Евклідова відстань
Евклідова відстань
Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1}\), \(x_{i2}\). Вихідні дані подано в табл. 2.1. Необхідно розрахувати матрицю евклідових відстаней між об’єктами.
Ознака | Об’єкт 1 | Об’єкт 2 | Об’єкт 3 | Об’єкт 4 |
---|---|---|---|---|
\(x_{i1}\) | 8 | 6 | 4 | 5 |
\(x_{i2}\) | 13 | 10 | 12 | 14 |
Розв’язання
Матриця відстаней має такі властивості:
- симетричність відносно діагоналі;
- властивість тотожності відстані, яка в матриці відстаней проявляється в наявності 0 по діагоналі матриці, оскільки відстань об’єкта з самим собою очевидно дорівнює 0, а також у наявності нульових значень для абсолютно подібних об’єктів;
- значення відстаней у матриці завжди невід’ємні.
Розраховуємо матрицю евклідових відстаней за формулою:
\[ d_{ij}=\sqrt{\sum_{k=1}^m(x_{ik}-x_{jk})^2}. \]
Відстань між першим і другим об’єктом:
\[ d_{12}=\sqrt{(8-6)^2+(13-10)^2}=3,61. \]
Відстань між першим і третім об’єктом:
\[ d_{13}=\sqrt{(8-4)^2+(13-12)^2}=4,12. \]
Аналогічно розраховуємо відстані: \[ d_{14}=\sqrt{(8-5)^2+(13-14)^2}=3,16; \]
\[ d_{23}=\sqrt{(6-4)^2+(10-12)^2}=2,83; \]
\[ d_{24}=\sqrt{(6-5)^2+(10-14)^2}=4,12; \]
\[ d_{34}=\sqrt{(4-5)^2+(12-14)^2}=2,24. \]
Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця евклідових відстаней між об’єктами матиме вигляд, поданий у табл. 2.2.
№ об’єкта | 1 | 2 | 3 | 4 |
---|---|---|---|---|
1 | 0 | 3,61 | 4,12 | 3,16 |
2 | 3,61 | 0 | 2,83 | 4,12 |
3 | 4,12 | 2,83 | 0 | 2,24 |
4 | 3,16 | 4,12 | 2,24 | 0 |
Приклад 3.2. Зважена евклідова відстань
Зважена евклідова відстань
Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1},x_{i2}\). Вихідні дані подано в табл. 2.3. Необхідно розрахувати матрицю зважених евклідових відстаней між об’єктами, якщо ознаки мають різну вагу: \(w_1=0,6; w_2=0,4\).
Ознака | Об’єкт 1 | Об’єкт 2 | Об’єкт 3 | Об’єкт 4 |
---|---|---|---|---|
\(x_{i1}\) | 10 | 14 | 9 | 8 |
\(x_{i2}\) | 25 | 20 | 17 | 15 |
Розв’язання
Розраховуємо матрицю зважених евклідових відстаней за формулою:
\[ d_{ij}=\sqrt{\sum_{k=1}^mw_k(x_{ik}-x_{jk})^2}. \]
Відстань між першим і другим об’єктом:
\[ d_{12}=\sqrt{0,6\cdot(10-14)^2+0,4\cdot(25-20)^2}=4,43. \]
Відстань між першим і третім об’єктом:
\[ d_{13}=\sqrt{0,6\cdot(10-9)^2+0,4\cdot(25-17)^2}=5,12. \]
Аналогічно розраховуємо відстані: \[ d_{14}=\sqrt{0,6\cdot(10-8)^2+0,4\cdot(25-15)^2}=6,51; \]
\[ d_{23}=\sqrt{0,6\cdot(14-9)^2+0,4\cdot(20-17)^2}=4,31; \]
\[ d_{24}=\sqrt{0,6\cdot(14-8)^2+0,4\cdot(20-15)^2}=5,62; \]
\[ d_{34}=\sqrt{0,6\cdot(9-8)^2+0,4\cdot(17-15)^2}=1,48. \]
Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця зважених евклідових відстаней між об’єктами матиме вигляд, поданий у табл. 2.4.
№ об’єкта | 1 | 2 | 3 | 4 |
---|---|---|---|---|
1 | 0 | 4,43 | 5,12 | 6,51 |
2 | 4,43 | 0 | 4,31 | 5,62 |
3 | 5,12 | 4,31 | 0 | 1,48 |
4 | 6,51 | 5,62 | 1,48 | 0 |
Приклад 3.3. Відстань city-block (Мангетенська)
Відстань city-block (Мангетенська)
Чотири досліджуваних об’єкти характеризуються двома ознаками \(x_{i1},x_{i2}\). Вихідні дані подано в табл. 2.5. Необхідно розрахувати матрицю відстаней city-block між об’єктами.
Ознака | Об’єкт 1 | Об’єкт 2 | Об’єкт 3 | Об’єкт 4 |
---|---|---|---|---|
\(x_{i1}\) | 20 | 22 | 28 | 30 |
\(x_{i2}\) | 10 | 12 | 15 | 16 |
Розв’язання
Розраховуємо матрицю відстаней city-block за формулою:
\[ d_{ij}=\sum_{k=1}^m|x_{ik}-x_{jk}|. \]
Відстань між першим і другим об’єктом:
\[ d_{12}=|20-22|+|10-12|=4. \]
Відстань між першим і третім об’єктом:
\[ d_{13}=|20-28|+|10-15|=13. \]
Аналогічно розраховуємо відстані між іншими об’єктами:
\[ d_{14}=|20-30|+|10-16|=16; \]
\[ d_{23}=|22-28|+|12-15|=9; \]
\[ d_{24}=|22-30|+|12-16|=12; \]
\[ d_{34}=|28-30|+|15-16|=3. \]
Діагональні елементи матриці відстаней дорівнюють 0, матриця симетрична відносно головної діагоналі, оскільки \(d_{ij}=d_{ji}\). Тоді матриця відстаней city-block між об’єктами матиме вигляд, поданий у табл. 3.1.
№ об’єкта | 1 | 2 | 3 | 4 |
---|---|---|---|---|
1 | 0 | 4 | 13 | 16 |
2 | 4 | 0 | 9 | 12 |
3 | 13 | 9 | 0 | 3 |
4 | 16 | 12 | 3 | 0 |
Приклад 3.4. Використання коефіцієнта Жаккара
Використання коефіцієнта Жаккара
П’ять досліджуваних об’єктів характеризуються трьома ознаками \(x_1,x_2,x_3\). Вихідні дані подано в табл. 3.2. Необхідно розрахувати матрицю відстаней між об’єктами на основі коефіцієнту Жаккара.
Ознака | Об’єкт 1 | Об’єкт 2 | Об’єкт 3 | Об’єкт 4 | Об’єкт 5 |
---|---|---|---|---|---|
\(x_1\) | 0 | 1 | 0 | 0 | 1 |
\(x_2\) | 1 | 1 | 1 | 1 | 1 |
\(x_3\) | 1 | 1 | 1 | 0 | 1 |
Розв’язання
Коефіцієнт подібності Жаккара є бінарною мірою подібності. Він обчислюється за формулою:
\[ J=\frac{a}{a+b+c}. \]
Таблиця спряженості \(2\times2\):
\(1\) | \(0\) | |
\(1\) | \(a\) | \(b\) |
\(0\) | \(c\) | \(d\) |
Із таблиці спряженості отримуємо такі значення коефіцієнта Жаккара між відповідними елементами (матрицю подібності): для першого та другого об’єктів матриця спряженості має вигляд:
\(1\) | \(0\) | |
\(1\) | \(2\) | \(0\) |
\(0\) | \(1\) | \(0\) |
\[ J_{12}=\frac{a}{a+b+c}=\frac{2}{2+0+1}=0,67. \]
Аналогічно розраховуємо коефіцієнти для інших пар об’єктів (табл. 3.3).
Об’єкти | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 0 | 0,67 | 1,00 | 0,5 | 0,67 |
2 | 0,67 | 0 | 0,67 | 0,33 | 1,00 |
3 | 1,00 | 0,67 | 0 | 0,5 | 0,67 |
4 | 0,5 | 0,33 | 0,5 | 0 | 0,33 |
5 | 0,67 | 1,00 | 0,67 | 0,33 | 0 |
Відстані між об’єктами визначають за формулою:
\[ d_{ij}=1-J_{ij}. \]
Матриця відстаней між об’єктами подана в табл. 3.4.
Об’єкти | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 0 | 0,33 | 0,00 | 0,50 | 0,33 |
2 | 0,33 | 0 | 0,33 | 0,67 | 0,00 |
3 | 0,00 | 0,33 | 0 | 0,50 | 0,33 |
4 | 0,50 | 0,67 | 0,50 | 0 | 0,67 |
5 | 0,33 | 0,00 | 0,33 | 0,67 | 0 |
Отримані матриці відстаней є основою для проведення кластеризації. У кожній конкретній задачі вибір міри відстані здійснюється різним чином, з урахуванням головної мети дослідження, фізичної і статистичної природи використовуваної інформації тощо.