Тема 4. Алгоритми Data Mining: кластеризація
...
1. Суть кластерного аналізу
Кластерний аналіз з'явився порівняно недавно – у 1939 р. Його запропонував вчений К. Тріон. Дослівно термін "кластер" в перекладі з англійської "cluster" означає гроно, згусток, пучок, група.
Особливо бурхливий розвиток кластерного аналізу відбувся у 60-х роках минулого століття. Передумовами цього були поява швидкісних комп'ютерів та визнання класифікацій фундаментальним методом наукових досліджень.
Кластерний аналіз – це метод багатомірного статистичного дослідження, до якого належать збір даних, що містять інформацію про вибіркові об'єкти, та упорядкування їх в порівняно однорідні, схожі між собою групи.
Отже, сутність кластерного аналізу полягає у здійсненні класифікації об'єктів дослідження за допомогою численних обчислювальних процедур. В результаті цього утворюються "кластери" або групи дуже схожих об'єктів. На відміну від інших методів, цей вид аналізу дає можливість класифікувати об'єкти не за однією ознакою, а за декількома одночасно. Для цього вводяться відповідні показники, що характеризують певну міру близькості за всіма класифікаційними параметрами.
Мета кластерного аналізу полягає в пошуку наявних структур, що виражається в утворенні груп схожих між собою об'єктів – кластерів. Водночас його дія полягає й у привнесенні структури в досліджувані об'єкти. Це означає, що методи кластеризації необхідні для виявлення структури в даних, яку нелегко знайти при візуальному обстеженні або за допомогою експертів.
Основними завданнями кластерного аналізу є:
- – розробка типології або класифікації досліджуваних об'єктів;
- – дослідження та визначення прийнятних концептуальних схем групування об'єктів;
- – висунення гіпотез на підставі результатів дослідження даних;
- – перевірка гіпотез чи справді типи (групи), які були виділені певним чином, мають місце в наявних даних.
Кластерний аналіз потребує здійснення таких послідовних кроків:
- 1) проведення вибірки об'єктів для кластеризації;
- 2) визначення множини ознак, за якими будуть оцінюватися відібрані об'єкти;
- 3) оцінка міри подібності об'єктів;
- 4) застосування кластерного аналізу для створення груп подібних об'єктів;
- 5) перевірка достовірності результатів кластерного рішення.
Кожен з цих кроків відіграє значну роль у практичному здійсненні аналізу.
Визначення множини ознак, які покладаються в основу оцінки об'єктів (), у кластерному аналізі є одним із найважливіших завдань дослідження. Мета цього кроку повинна полягати у визначенні сукупності змінних ознак, яка найкраще відображає поняття подібності. Ці ознаки мають вибиратися з урахуванням теоретичних положень, покладених в основу класифікації, а також мети дослідження.
При визначенні міри подібності об'єктів кластерного аналізу використовуються чотири види коефіцієнтів: коефіцієнти кореляції, показники віддалей, коефіцієнти асоціативності та ймовірносні, коефіцієнти подібності. Кожен з цих показників має свої переваги та недоліки, які попередньо потрібно врахувати. На практиці найбільшого розповсюдження у сфері соціальних та економічних наук здобули коефіцієнти кореляції та віддалей.
В результаті аналізу сукупності вхідних даних створюються однорідні групи у такий спосіб, що об'єкти всередині цих груп подібні між собою за деяким критерієм, а об'єкти з різних груп відрізняються один від одного.
Шрифти
Розмір шрифта
Колір тексту
Колір тла