5.1 Сутність і завдання дискримінантного аналізу. Обмеження та проблеми використання методів дискримінантного аналізу

Дискримінантний аналіз (ДА) є найважливішим інструментом під час вирішення задач класифікації. На відміну від інших методів, дискримінантний аналіз дозволяє досліднику спрогнозувати, до якого класу належить новий об’єкт. Він містить статистичні методи класифікації багатовимірних об’єктів у ситуації, коли дослідник має так звані навчальні вибірки (класифікація з навчанням). Незважаючи на багато обмежень під час виконання даного методу, дискримінантний аналіз доцільно застосовувати в комплексі з іншими методиками багатовимірного статистичного аналізу.

Дискримінантний аналіз
це розділ математичної статистики, змістом якого є розроблення методу розв’язання задач відмінності, тобто дискримінації об’єктів за певними ознаками.

Як і кластерний аналіз, ДА належить до методів багатовимірної класифікації. Основна відмінність між методами полягає в тому, що в ході ДА нові кластери не утворюються, а формулюється правило, за яким нові одиниці сукупності відносять до одного із уже існуючих класів. ДА дозволяє велику неоднорідну сукупність розбити на однорідні групи, а також віднести певний об’єкт (явище, процес, спостереження) до конкретного класу. Головні завдання дискримінантного аналізу наведено на рис. 5.1.

Завдання дискримінантного аналізу

Рис. 5.1: Завдання дискримінантного аналізу

Методи дискримінантного аналізу знаходять застосування практично в усіх галузях: економіка, соціологія, медицина, психологія, управління. Обмеження для використання ДА наведено на рис. 5.2.

Обмеження для використання дискримінантного аналізу

Рис. 5.2: Обмеження для використання дискримінантного аналізу

У загальному випадку задача на розрізнення (дискримінації) формулюється так: нехай результатом спостереження над об’єктом є реалізація \(k\)-вимірного випадкового вектора \(x=(x_1,x_2,…,x_k)^T\). Потрібно встановити правило, відповідно до якого за спостереженим значенням вектора \(x\) об’єкт відносять до однієї з можливих сукупностей \(φ_i,i=1,2,…,l\).

Для побудови правила дискримінації весь вибірковий простір значень вектора розбивається на області \(R_i, i=1,2,…,l\) так, що з влученням \(x\) у \(R_i\) об’єкт відносять до сукупності \(φ_i\).

Правило дискримінації вибирається відповідно до певного принципу оптимальності на основі апріорної інформації. Остання може бути подана як у вигляді деяких відомостей про функції \(k\)-вимірного розподілу ознак у кожній сукупності, так і у вигляді вибірок із цих сукупностей. Апріорні ймовірності можуть бути задані або ні.

Основні проблеми у використанні ДА

Основні проблеми у використанні ДА наведено на рис. 5.3.

Проблеми використання дискримінантного аналізу

Рис. 5.3: Проблеми використання дискримінантного аналізу

Найчастіше вихідна інформація про розподіл представлена вибірками. У цьому випадку задача дискримінації формулюється так: нехай \(x^i_1,...x^i_j,...x^i_n,\) — вибірка із сукупності \(φ_i, \>\> i=1,2,…,l \>\>\> i=1,2,…,l;\) причому кожний \(j\)-й об’єкт вибірки представлений \(k\)-вимірним вектором дискримінантних змінних \(x_j^i=(x_{jl}^i,…,x_{jq}^i,…,x_{jk}^i)^T\) \(x_j^i=x_{jl}^i,…,x_{jq}^i,…,x_{jk}^i\).

Дискримінантні змінні
це ознаки, які використовуються для того, щоб відрізняти один клас (підмножину) від іншого.

Зроблено додаткове спостереження \(x=(x_l,…,x_k)\) над об’єктом, що належить сукупності \(φ_i\). Потрібно побудувати правило віднесення спостереження \(x\) до однієї із сукупностей. Звичайно в задачі на розпізнавання переходять від вектора ознак, що характеризують об’єкт, до лінійної функції від них.

Дискримінантна функція
це гіперплощина, яка найкраще розділяє сукупність вибіркових точок. Ці точки використовуються для оцінювання параметрів статистичних функцій розподілу. Як правило, для побудови функції використовують нормальний розподіл.