Тема 1. Концепція дейтамайнінгу
...
3. Доступне програмне забезпечення Data Mining
На ринку програмних продуктів пропонуються десятки готових до використання систем дейтамайнінгу, причому деякі з них орієнтовані на широке охоплення технологічних засобів дейтамайнінгу, а інші грунтуються на специфічних методах (нейромережах, деревах рішень тощо). Охарактеризуємо найновіші системи ДМ з низкою різних підходів і методів дейтамайнінгу —MineSet, KnowlengeSTUDIO,PolyAnalyst. Вузькоорієнтовані на специфічні способи добування даних системи ДМ будуть згадуватися за ідентифікації найпоширеніших методів дейтамайнінгу в наступних параграфах даного розділу.
MineSet — візуальний інструмент аналітика
Компанія «Silicon Graphics» розробила систему дейтамайнінгу— MineSet, яка відрізняється специфічними особливостями як на концептуальному, так і на технологічному рівнях. Акцент при цьому робиться на унікальну процедуру візуальної інтерпретації складних взаємозв'язків у багатовимірних даних.
Система MineSet являє собою інструментарій для поглибленого інтелектуального аналізу даних на базі використання потужної візуальної парадигми. Характерною особливістю MineSet є комплексний підхід, що адаптує застосування не однієї, а кількох взаємодоповнюючих стратегій добування, аналізу й інтерпретації даних. Це дає користувачеві можливість вибирати найвідповідніший інструмент або ряд інструментів залежно від розв'язуваної задачі і видів використовуваних програмно-апаратних засобів. Архітектура MineSet має принципово відкритий характер — використовуючи стандартизований файловий формат, інші додатки можуть постачати дані для введення в MineSet, а також використовувати результати її роботи. Відкрита архітектура системи — це і основа для майбутнього її розширення, що передбачає можливість вбудовування нових компонентів на основі концепції інтеграції (plug-in). У свою чергу, інтерфейс прикладного програмування (АРІ) дає змогу інкорпорувати елементи MineSet в автономні додатки.
KnowledgeSTUDIO
Knowledge STUDIO є новою версією дейтамайнінгу корпорації з програмного забезпечення «ANGOSS» (http://www.angoss. com/). Система впроваджує найрозвинутіші методи ДМ у корпоративне середовище з тим, щоб підприємства могли досягати максимальної вигоди від своїх інвестицій у дані. Вона забезпечує високу продуктивність користувачів щодо розв'язання ділових проблем без суттєвих зусиль на навчання, як це, наприклад, потрібно для освоєння статистичного програмного забезпечення. Крім того, це також потужний інструментальний засіб для аналітиків.
KnowledgeSTUDIO сумісна з основними статистичними пакетами програм. Наприклад, ця система не тільки читає і записує файли даних, але також і генерує коди статистичного пакета SAS. Із такими властивостями стосовно статистики моделювальники можуть швидко й легко адаптувати успадковані статистичні
аналізи.
Система KnowledgeSTUDIO тісно інтегрується зі сховищами і вітринами даних. У такому разі дані можуть добуватися в режимі In-place Mining, тобто коли вони залишаються у вітрині або сховищі даних «на місці», автоматично використовуючи для цього «хвилі запитів», тобто серію тверджень SQL. Завдяки тому, що дані отримуються безпосередньо від джерела, дублювання не потребується. Альтернативно, з метою оптимізації ДМ дані можна вибирати з їх форматом зберігання, а потім дейтамайнінг виконується сервером високої продуктивності, який орієнтований на формат файлів KnowledgeSTUDIO.
Технологія ДМ ANGOSS ActiveX інтегрує моделі для прогнозування з Web-базовими додатками і бізнесовими клієнт/серверними додатками. Дослідження даних за допомогою використання дерев рішень і графіки може бути розширене через Інтранет і Інтернет, Можна також застосовувати Java-розв'язування для розгортання моделей. Для виконання алгоритмів обчислення в проекті KnowledgeSTUDIO передбачено використання або віддаленого «обчислювального» сервера, або локальної робочої станції. У KnowledgeSTUDIO реалізована велика кількість методів дейтамайнінгу. Пропонується п'ять алгоритмів дерев рішень, три алгоритми нейромереж і алгоритм кластеризації «неконтрольованого навчання» (unsupervised). Має місце повне інтегрування з додатками і бізнесовими процесами. Можна створювати нові додатки або вставляти дейтамайнінг у наявні додатки. Програмований комплекс KnowledgeSTUDIOSoftware (SDK) надає можливість розроблення додатків, наприклад створення моделей для прогнозування, з можливим використанням Visual Basic, PowerBuilder, Delphi, C++, або Java. Формування, випробування і оцінювання нових моделей може бути також автоматизованим. KnowledgeSTUDIO забезпечує різні шляхи, щоб візуально виразити і дослідити у великих базах даних зразки прихованих закономірностей.
PolyAnalyst
Компанія «Мегап'ютер» виробляє і пропонує на ринку сімейство продуктів для дейтамайнінгу — PolyAnalyst. Система PolyAnalyst призначена для автоматичного і напівавтоматичного аналізу числових баз даних і витягання з сирих даних практично корисних знань. PolyAnalyst знаходить багатофакторні залежності між змінними в базі даних, автоматично будує і тестує багатовимірні нелінійні моделі, що виражають знайдені залежності, виводить класифікаційні правила по повчальних прикладах, знаходить в даних багатовимірні кластери, будує алгоритми рішень.PolyAnalyst використовується в більш ніж 20 країнах світу для вирішення завдань з різних областей людської діяльності: бізнесу, фінансів, науки, медицини. В даний час - це одна з наймогутніших і в той же час доступних в ціновому відношенні комерційних систем для Data mining в світі. Основу PolyAnalyst складають так звані Exploration engines або Машини досліджень - математичні модулі, засновані на різних DM алгоритмах, і призначені для автоматичного аналізу даних. Компанія Megaputer Intelligence веде інтенсивні дослідження, направлені на розширення аналітичних функцій системи PolyAnalyst, розробку нових DM алгоритмів і нових математичних модулів системи.
В даний час PolyAnalyst є однією з наймогутніших систем Data Mining в світі, реалізованих для Intel платформ і операційних систем Microsoft Windows. Аналогічні системи Data Mining таких провідних виробників, як IBM (Intelligent Miner, Data Miner), Silicon Graphics (SGI Miner), Integral Solutions (Clementine), SAS Institute (SAS) працюють на середніх і великих машинах і коштують десятки і навіть сотні тисяч доларів. Завдяки унікальній технології "Еволюційного програмування", і іншим інноваційним математичним алгоритмам, PolyAnalyst поєднує в собі високу продуктивність "великих систем" з низькою вартістю, властивою програмам для Windows. PolyAnalyst - один з небагатьох комерційних продуктів, в якому реалізовані не тільки методи аналізу числових даних, але і алгоритми Text Mining, - аналізу текстової інформації. Протягом своєї більш, ніж 10-річній історії, пакет безперервно розвивається, компанія-виробник додає нову функціональність, нові математичні модулі, планується портация системи на Unix платформи. PolyAnalyst набув широкого поширення в світі. Більше 500 інсталяцій в 20 країнах світу, серед користувачів системи значний список складають найбільші світові корпорації: Boeing, 3M, Chase Manhattan Bank, Dupont, Siemens та інші. PolyAnalyst - універсальна система Data Mining, вона з успіхом застосовується в різних областях: у рішенні бізнес-задач (direct marketing, cross-selling, customer retention), в соціологічних дослідженнях, в прикладних наукових і інженерних завданнях, в банківській справі, в страхуванні і медицині.
З можливостей, SQL Server 2000 виділяють наступні:
· побудова і обробка моделей Data Mining;
· витягання даних як з реляційних, так і з багатовимірних джерел;
· два алгоритми здобування даних - Microsoft Decision Trees і Microsoft Clustering;
· розширення мови запитів до багатовимірних даних (MDX);
· робота із зовнішніми додатками через об'єктну модель DSO (Decision Support Objects).
Моделі
Моделі Data Mining - це основа витягання даних в SQL Server 2000. По суті модель є сукупність метаданих, що відображають деякі правила і закономірності в початкових даних. При цьому структура моделі визначає набір ключових атрибутів аналізу, тоді як її зміст несе безпосередньо статистичну інформацію - тут простежується схожість з ідеологією звичайних таблиць. Проте варто мати на увазі, що на основі одного і того ж набору початкових даних можна побудувати декілька різних моделей. У цьому сенсі побудова правильної моделі гарантує нам отримання саме тих “прихованих” даних, які ми прагнемо виявити.
R — мова програмування і програмне середовище для статистичних обчислень, аналізу та зображення даних в графічному вигляді. Розробка R відбувалась під істотним впливом двох наявних мов програмування: мови програмування S з семантикою успадкованою від Scheme[1]. R названа за першою літерою імен її засновників Роса Іхаки (Ross Ihaka) та Роберта Джентлмена (Robert Gentleman)[2] працівників Оклендського Університету в Новій Зеландії. Незважаючи на деякі принципові відмінності, більшість програм, написаних мовою програмування S запускаються в середовищі R.
R поширюєтся безкоштовно за ліцензією GNU General Public License у вигляді вільнодоступого вихідного коду або відкомпільованих бінарних версій більшості операційних систем: Linux, FreeBSD, Microsoft Windows, Mac OS X, Solaris. R використовує текстовий інтерфейс, однак існують різні графічні інтерфейси користувача.
R має значні можливості для здійснення статистичних аналізів, включаючи лінійну і нелінійну регресію, класичні статистичні тести, аналіз часових рядів (серій), кластерний аналіз і багато іншого. R легко розбудовується завдяки використанню додаткових функцій і пакетів доступних на сайті Comprehensive R Archive Network (CRAN). Більша частина стандартних функцій R, написана мовою R, однак існує можливість підключати код написаний C, C++, або Фортраном. Також за допомогою програмного коду на C або Java можна безпосередньо маніпулювати R об'єктами.
Шрифти
Розмір шрифта
Колір тексту
Колір тла