5.1 Сутність і завдання дискримінантного аналізу. Обмеження та проблеми використання методів дискримінантного аналізу
Дискримінантний аналіз (ДА) є найважливішим інструментом під час вирішення задач класифікації. На відміну від інших методів, дискримінантний аналіз дозволяє досліднику спрогнозувати, до якого класу належить новий об’єкт. Він містить статистичні методи класифікації багатовимірних об’єктів у ситуації, коли дослідник має так звані навчальні вибірки (класифікація з навчанням). Незважаючи на багато обмежень під час виконання даного методу, дискримінантний аналіз доцільно застосовувати в комплексі з іншими методиками багатовимірного статистичного аналізу.
- Дискримінантний аналіз
- це розділ математичної статистики, змістом якого є розроблення методу розв’язання задач відмінності, тобто дискримінації об’єктів за певними ознаками.
Як і кластерний аналіз, ДА належить до методів багатовимірної класифікації. Основна відмінність між методами полягає в тому, що в ході ДА нові кластери не утворюються, а формулюється правило, за яким нові одиниці сукупності відносять до одного із уже існуючих класів. ДА дозволяє велику неоднорідну сукупність розбити на однорідні групи, а також віднести певний об’єкт (явище, процес, спостереження) до конкретного класу. Головні завдання дискримінантного аналізу наведено на рис. 5.1.

Рис. 5.1: Завдання дискримінантного аналізу
Методи дискримінантного аналізу знаходять застосування практично в усіх галузях: економіка, соціологія, медицина, психологія, управління. Обмеження для використання ДА наведено на рис. 5.2.

Рис. 5.2: Обмеження для використання дискримінантного аналізу
У загальному випадку задача на розрізнення (дискримінації) формулюється так: нехай результатом спостереження над об’єктом є реалізація \(k\)-вимірного випадкового вектора \(x=(x_1,x_2,…,x_k)^T\). Потрібно встановити правило, відповідно до якого за спостереженим значенням вектора \(x\) об’єкт відносять до однієї з можливих сукупностей \(φ_i,i=1,2,…,l\).
Для побудови правила дискримінації весь вибірковий простір значень вектора розбивається на області \(R_i, i=1,2,…,l\) так, що з влученням \(x\) у \(R_i\) об’єкт відносять до сукупності \(φ_i\).
Правило дискримінації вибирається відповідно до певного принципу оптимальності на основі апріорної інформації. Остання може бути подана як у вигляді деяких відомостей про функції \(k\)-вимірного розподілу ознак у кожній сукупності, так і у вигляді вибірок із цих сукупностей. Апріорні ймовірності можуть бути задані або ні.
Основні проблеми у використанні ДА
Основні проблеми у використанні ДА наведено на рис. 5.3.

Рис. 5.3: Проблеми використання дискримінантного аналізу
Найчастіше вихідна інформація про розподіл представлена вибірками. У цьому випадку задача дискримінації формулюється так: нехай \(x^i_1,...x^i_j,...x^i_n,\) — вибірка із сукупності \(φ_i, \>\> i=1,2,…,l \>\>\> i=1,2,…,l;\) причому кожний \(j\)-й об’єкт вибірки представлений \(k\)-вимірним вектором дискримінантних змінних \(x_j^i=(x_{jl}^i,…,x_{jq}^i,…,x_{jk}^i)^T\) \(x_j^i=x_{jl}^i,…,x_{jq}^i,…,x_{jk}^i\).
- Дискримінантні змінні
- це ознаки, які використовуються для того, щоб відрізняти один клас (підмножину) від іншого.
Зроблено додаткове спостереження \(x=(x_l,…,x_k)\) над об’єктом, що належить сукупності \(φ_i\). Потрібно побудувати правило віднесення спостереження \(x\) до однієї із сукупностей. Звичайно в задачі на розпізнавання переходять від вектора ознак, що характеризують об’єкт, до лінійної функції від них.
- Дискримінантна функція
- це гіперплощина, яка найкраще розділяє сукупність вибіркових точок. Ці точки використовуються для оцінювання параметрів статистичних функцій розподілу. Як правило, для побудови функції використовують нормальний розподіл.