Тема 1. Концепція дейтамайнінгу
2. Практичне застосування Data Mining
Бізнес-застосування Data Mining
Для застосування продукту Data Mining, необхідно виконати ряд кроків:
1. Встановити масштаби проекту, що визначають, які дані необхідно зібрати. Важливо, щоб проект був направлений на реалізацію реальних бізнес -цілей.
2. Розробити базу даних для Data Mining. Необхідна інформація може бути розподілена по декількох базах, іноді вона навіть зберігається не в електронній формі. Дані з різних баз необхідно консолідувати і усунути невідповідності. Насправді розвиток технології баз даних вже не вимагає застосування алгоритмів Data Mining до окремої вітрини даних. Фактично, ефективний аналіз вимагає корпоративного сховища даних, що з погляду вкладень обходиться дешевше, ніж використання окремих вітрин.
Відзначимо, що у міру впровадження Data Mining - проектів в масштабі підприємства кількість користувачів зростає, тому все частіше виникає необхідність в доступі до великомасштабних інфраструктур даних. Сучасне сховище надає не тільки ефективний спосіб зберігання всіх корпоративних даних і усуває необхідність у використанні інших вітрин і джерел, але і стає ідеальною основою для Data Mining - проектів. Репозиторій даних підприємства забезпечує узгоджені і актуальні дані про клієнтів. Упроваджуючи Data Mining функції в сховищі, компанії скорочують витрати в двох напрямах. В цьому випадку, по-перше, вже не потрібно набувати і обслуговувати додаткове устаткування для Data Mining . По-друге, компанії не потрібно переносити дані зі сховища в спеціальні джерела для Data Mining - проектів, при цьому економляться час і матеріальні ресурси.
Ще один важливий момент - очищення даних. Тут розуміється перевірка на цілісність і обробка відсутніх значень. Точність методів Data Mining залежить від якості інформації, яка лежить в їх основі. Відмітимо, що перші два етапи можуть зайняти половину (а то і більше) часу, відведеного на весь проект.
3. Застосувати алгоритми Data Mining для визначення відносин між даними. І не виключено, що для виявлення потрібних залежностей доведеться використовувати декілька різних алгоритмів. Одні з них підійдуть на перших етапах процесу, інші на пізніших. У певних випадках має сенс запустити декілька алгоритмів паралельно, щоб проаналізувати дані з різних точок зору.
4. Досліджувати співвідношення, виявлені на попередніх етапах, на застосування в масштабах проекту. На цьому етапі можливо потрібна допомога експерта в певній області. Він визначить, чи є ті або інші відносини дуже специфічними або дуже загальними і вкаже, в яких областях слід продовжити аналіз.
5. Представити результати у вигляді звіту, в якому будуть перераховані всі відносини, що інтерпретуються. Такий звіт принесе тільки одномоментну вигоду, тоді таке як застосування, що дозволяє експертові творчо підходити до виявлення відносин, набагато корисніше. Тому фірма-постачальник повинна не тільки навчити клієнта методиці пошуку залежностей в даних, але і звернути особливу увагу на навчальній роботі з самою програмою.
Також на розподіл часу для Data Mining проекту впливають і інші чинники: тип кінцевого застосування, наявність і стан сховища даних. Наприклад, якщо взяти застосування для прогнозування продажів, то виявлені відносини між даними можна використовувати до тих пір, поки не зміниться діяльність компанії. І навпаки, при аналізі споживчої корзини компанія зазвичай шукає все нові залежності в даних. Для проекту прогнозування збуту більше часу доведеться витратити на перших трьох етапах, а для аналізу споживчої корзини - на останньому.
Сфера застосування Data Mining нічим не обмежена - вона скрізь, де є які-небудь дані. Але в першу чергу методи Data Mining сьогодні, м'яко кажучи, заінтригували комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних (Data Warehousing).
Data Mining представляють велику цінність для керівників і аналітиків в їх повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги в конкурентній боротьбі. Стисло охарактеризуємо деякі можливі бізнес- застосування Data Mining .
Роздрібна торгівля
Ось типові завдання, які можна вирішувати за допомогою Data Mining у сфері роздрібної торгівлі:
· аналіз купівельної корзини (аналіз схожості) призначений для виявлення товарів, яких покупці прагнуть придбати разом. Знання купівельної корзини необхідне для поліпшення реклами, вироблення стратегії створення запасів товарів і способів їх розкладки в торгових залах.
· дослідження тимчасових шаблонів допомагає торговим підприємствам приймати рішення про створення товарних запасів.
· створення прогнозуючих моделей дає можливість торговим підприємствам дізнаватися характер потреб різних категорій клієнтів з певною поведінкою. Ці знання потрібні для розробки точно направлених, економічних заходів щодо просування товарів.
Банківська справа
Досягнення технології Data Mining використовуються в банківській справі для вирішення наступних поширених завдань:
· виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи такого шахрайства.
· сегментація клієнтів. Розбиваючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою і результативною, пропонуючи різні види послуг різним групам клієнтів.
· прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів, і відповідним чином обслуговувати кожну категорію.
Телекомунікації
В області телекомунікацій методи Data Mining допомагають компаніям енергійніше просувати свої програми маркетингу і ціноутворення, щоб утримувати існуючих клієнтів і привертати нових. Серед типових заходів відзначимо наступні:
· аналіз записів про докладні характеристики викликів. Призначення такого аналізу - виявлення категорій клієнтів з схожими стереотипами користування їх послугами і розробка привабливих наборів цін і послуг;
· виявлення лояльності клієнтів. Data Mining можна використовувати для визначення характеристик клієнтів, які, один раз скориставшись послугами даної компанії, з великою часткою вірогідність залишаться їй вірними. У результаті засоби, що виділяються на маркетинг, можна витрачати там, де віддача більше всього.
Спеціальні застосування
Медицина
Відомо багато експертних систем для постановки медичних діагнозів. Вони побудовані головним чином на основі правил, що описують поєднання різних симптомів різних захворювань. За допомогою таких правил дізнаються не тільки, на що хворий пацієнт, але і як потрібно його лікувати. Правила допомагають вибирати засоби медикаментозної дії, визначати свідчення - протипоказання, орієнтуватися в лікувальних процедурах, створювати умови найбільш ефективного лікування, передбачати результати призначеного курсу лікування і т.п. Технології Data Mining дозволяють виявляти в медичних даних шаблони, складаючи основу вказаних правил.
Молекулярна генетика і генна інженерія
Мабуть, найгостріше і разом з тим чітко завдання виявлення закономірностей в експериментальних даних, стоїть в молекулярній генетиці і генній інженерії. Тут вона формулюється як визначення так званих маркерів, під якими розуміють генетичні коди, контролюючі ті або інші фенотипічні ознаки живого організму. Такі коди можуть містити сотні, тисячі і більш зв'язаних елементів.
На розвиток генетичних досліджень виділяються великі кошти. Останнім часом в даній області виник особливий інтерес до застосування методів Data Mining. Прикладна хімія
Методи Data Mining знаходять широке застосування в прикладній хімії (органічній і неорганічній). Тут нерідко виникає питання про з'ясування особливостей хімічної будови тих або інших з'єднань, що визначають їх властивості. Особливо актуальне таке завдання при аналізі складних хімічних сполук, опис яких включає сотні і тисячі структурних елементів і їх зв'язків.
Шрифти
Розмір шрифта
Колір тексту
Колір тла