3. Доступне програмне забезпечення Data Mining

На ринку програмних продуктів пропонуються десятки готових до використання систем дейта­майнінгу, причому деякі з них орієнтовані на широке охоплення технологічних засобів дейтамайнінгу, а інші грунтуються на спе­цифічних методах (нейромережах, деревах рішень тощо). Охарак­теризуємо найновіші системи ДМ з низкою різних підходів і мето­дів дейтамайнінгу —MineSet, KnowlengeSTUDIO,PolyAnalyst. Вузькоорієнтовані на специфічні способи добування даних систе­ми ДМ будуть згадуватися за ідентифікації найпоширеніших ме­тодів дейтамайнінгу в наступних параграфах даного розділу.

MineSet — візуальний інструмент аналітика

Компанія «Silicon Graphics» розробила систему дейта­майнінгу— MineSet, яка відрізняється специфічними особливос­тями як на концептуальному, так і на технологічному рівнях. Ак­цент при цьому робиться на унікальну процедуру візуальної інтерпретації складних взаємозв'язків у багатовимірних даних.

Система MineSet являє собою інструментарій для поглиблено­го інтелектуального аналізу даних на базі використання потужної візуальної парадигми. Характерною особливістю MineSet є ком­плексний підхід, що адаптує застосування не однієї, а кількох взаємодоповнюючих стратегій добування, аналізу й інтерпретації даних. Це дає користувачеві можливість вибирати найвідповідніший інструмент або ряд інструментів залежно від розв'язуваної задачі і видів використовуваних програмно-апаратних засобів. Архітектура MineSet має принципово відкритий характер — вико­ристовуючи стандартизований файловий формат, інші додатки мо­жуть постачати дані для введення в MineSet, а також використову­вати результати її роботи. Відкрита архітектура системи — це і ос­нова для майбутнього її розширення, що передбачає можливість вбудовування нових компонентів на основі концепції інтеграції (plug-in). У свою чергу, інтерфейс прикладного програмування (АРІ) дає змогу інкорпорувати елементи MineSet в автономні додатки.

KnowledgeSTUDIO

Knowledge STUDIO є новою версією дейтамайнінгу кор­порації з програмного забезпечення «ANGOSS» (http://www.angoss. com/). Система впроваджує найрозвинутіші методи ДМ у корпора­тивне середовище з тим, щоб підприємства могли досягати максимальної вигоди від своїх інвестицій у дані. Вона забезпечує ви­соку продуктивність користувачів щодо розв'язання ділових про­блем без суттєвих зусиль на навчання, як це, наприклад, потрібно для освоєння статистичного програмного забезпечення. Крім то­го, це також потужний інструментальний засіб для аналітиків.

KnowledgeSTUDIO сумісна з основними статистичними паке­тами програм. Наприклад, ця система не тільки читає і записує файли даних, але також і генерує коди статистичного пакета SAS. Із такими властивостями стосовно статистики моделювальники можуть швидко й легко адаптувати успадковані статистичні

аналізи.

Система KnowledgeSTUDIO тісно інтегрується зі сховищами і вітринами даних. У такому разі дані можуть добуватися в ре­жимі In-place Mining, тобто коли вони залишаються у вітрині або сховищі даних «на місці», автоматично використовуючи для цьо­го «хвилі запитів», тобто серію тверджень SQL. Завдяки тому, що дані отримуються безпосередньо від джерела, дублювання не по­требується. Альтернативно, з метою оптимізації ДМ дані можна вибирати з їх форматом зберігання, а потім дейтамайнінг викону­ється сервером високої продуктивності, який орієнтований на формат файлів KnowledgeSTUDIO.

Технологія ДМ ANGOSS ActiveX інтегрує моделі для прогно­зування  з  Web-базовими  додатками  і  бізнесовими  клієнт/серверними додатками. Дослідження даних за допомогою викорис­тання дерев рішень і графіки може бути розширене через Інтранет і Інтернет, Можна також застосовувати Java-розв'язування для розгортання моделей. Для виконання алгоритмів обчислення в проекті KnowledgeSTUDIO передбачено використання або відда­леного «обчислювального» сервера, або локальної робочої станції. У  KnowledgeSTUDIO реалізована велика кількість  методів дейтамайнінгу. Пропонується п'ять алгоритмів дерев рішень, три алгоритми нейромереж і алгоритм кластеризації «неконтрольованого навчання» (unsupervised). Має місце повне інтегрування з додатками і бізнесовими процесами. Можна створювати нові до­датки або вставляти дейтамайнінг у наявні додатки. Програмова­ний  комплекс KnowledgeSTUDIOSoftware (SDK) надає можли­вість розроблення додатків,  наприклад створення  моделей для прогнозування, з можливим використанням Visual Basic, Power­Builder, Delphi, C++, або Java. Формування, випробування і оціню­вання нових моделей може бути також автоматизованим. KnowledgeSTUDIO забезпечує різні шляхи, щоб візуально виразити і до­слідити у великих базах даних зразки прихованих закономірностей.

PolyAnalyst

Компанія «Мегап'ютер» виробляє і пропонує на ринку сімейство продуктів для дейтамайнінгу — PolyAnalyst. Система PolyAnalyst призначена для автоматичного і напівавтоматичного аналізу числових баз даних і витягання з сирих даних практично корисних знань. PolyAnalyst знаходить багатофакторні залежності між змінними в базі даних, автоматично будує і тестує багатовимірні нелінійні моделі, що виражають знайдені залежності, виводить класифікаційні правила по повчальних прикладах, знаходить в даних багатовимірні кластери, будує алгоритми рішень.PolyAnalyst використовується в більш ніж 20 країнах світу для вирішення завдань з різних областей людської діяльності: бізнесу, фінансів, науки, медицини. В даний час - це одна з наймогутніших і в той же час доступних в ціновому відношенні комерційних систем для Data mining в світі. Основу PolyAnalyst складають так звані Exploration engines або Машини досліджень - математичні модулі, засновані на різних DM алгоритмах, і призначені для автоматичного аналізу даних. Компанія Megaputer Intelligence веде інтенсивні дослідження, направлені на розширення аналітичних функцій системи PolyAnalyst, розробку нових DM алгоритмів і нових математичних модулів системи.

В даний час PolyAnalyst є однією з наймогутніших систем Data Mining в світі, реалізованих для Intel платформ і операційних систем Microsoft Windows. Аналогічні системи Data Mining таких провідних виробників, як IBM (Intelligent Miner, Data Miner), Silicon Graphics (SGI Miner), Integral Solutions (Clementine), SAS Institute (SAS) працюють на середніх і великих машинах і коштують десятки і навіть сотні тисяч доларів. Завдяки унікальній технології "Еволюційного програмування", і іншим інноваційним математичним алгоритмам, PolyAnalyst поєднує в собі високу продуктивність "великих систем" з низькою вартістю, властивою програмам для Windows. PolyAnalyst - один з небагатьох комерційних продуктів, в якому реалізовані не тільки методи аналізу числових даних, але і алгоритми Text Mining, - аналізу текстової інформації. Протягом своєї більш, ніж 10-річній історії, пакет безперервно розвивається, компанія-виробник додає нову функціональність, нові математичні модулі, планується портация системи на Unix платформи. PolyAnalyst набув широкого поширення в світі. Більше 500 інсталяцій в 20 країнах світу, серед користувачів системи значний список складають найбільші світові корпорації: Boeing, 3M, Chase Manhattan Bank, Dupont, Siemens та інші. PolyAnalyst - універсальна система Data Mining, вона з успіхом застосовується в різних областях: у рішенні бізнес-задач (direct marketing, cross-selling, customer retention), в соціологічних дослідженнях, в прикладних наукових і інженерних завданнях, в банківській справі, в страхуванні і медицині.

З можливостей, SQL Server 2000 виділяють наступні:

·           побудова і обробка моделей Data Mining;

·           витягання даних як з реляційних, так і з багатовимірних джерел;

·           два алгоритми здобування даних - Microsoft Decision Trees і Microsoft Clustering;

·           розширення мови запитів до багатовимірних даних (MDX);

·           робота із зовнішніми додатками через об'єктну модель DSO (Decision Support Objects).

Моделі

Моделі Data Mining - це основа витягання даних в SQL Server 2000. По суті модель є сукупність метаданих, що відображають деякі правила і закономірності в початкових даних. При цьому структура моделі визначає набір ключових атрибутів аналізу, тоді як її зміст несе безпосередньо статистичну інформацію - тут простежується схожість з ідеологією звичайних таблиць. Проте варто мати на увазі, що на основі одного і того ж набору початкових даних можна побудувати декілька різних моделей. У цьому сенсі побудова правильної моделі гарантує нам отримання саме тих “прихованих” даних, які ми прагнемо виявити. 

R — мова програмування і програмне середовище для статистичних обчислень, аналізу та зображення даних в графічному вигляді. Розробка R відбувалась під істотним впливом двох наявних мов програмування: мови програмування S з семантикою успадкованою від Scheme[1]. R названа за першою літерою імен її засновників Роса Іхаки (Ross Ihaka) та Роберта Джентлмена (Robert Gentleman)[2] працівників Оклендського Університету в Новій Зеландії. Незважаючи на деякі принципові відмінності, більшість програм, написаних мовою програмування S запускаються в середовищі R.

R поширюєтся безкоштовно за ліцензією GNU General Public License у вигляді вільнодоступого вихідного коду або відкомпільованих бінарних версій більшості операційних систем: LinuxFreeBSD, Microsoft Windows, Mac OS XSolaris. R використовує текстовий інтерфейс, однак існують різні графічні інтерфейси користувача.

R має значні можливості для здійснення статистичних аналізів, включаючи лінійну і нелінійну регресію, класичні статистичні тести, аналіз часових рядів (серій), кластерний аналіз і багато іншого. R легко розбудовується завдяки використанню додаткових функцій і пакетів доступних на сайті Comprehensive R Archive Network (CRAN). Більша частина стандартних функцій R, написана мовою R, однак існує можливість підключати код написаний CC++, або Фортраном. Також за допомогою програмного коду на C або Java можна безпосередньо маніпулювати R об'єктами.

Accessibility

Шрифти

Розмір шрифта

1

Колір тексту

Колір тла