Тема 7. Сховища даних та оперативний аналіз даних (OLAP)
2. Вимоги до OLAP-системи
Властивості інформаційних сховищ
Розробники виділяють наступні властивості:
- предметна орієнтація;
- інтегрованість даних;
- інваріантність у часі;
- непорушність - стабільність інформації;
- мінімізація надмірності інформації.
Предметна орієнтація
На відміну від БД в традиційних OLTP-системах, де дані підібрані у відповідності з конкретними додатками, інформація в OLAP орієнтована на задачі підтримки прийняття рішень. Для системи підтримки прийняття рішень потрібні «історичні» дані - факти продажів за певні проміжки часу. Добре спроектовані структури даних OLAP відображають розвиток всіх напрямків бізнесу компанії в часі.
Оскільки в OLAP-технології об'єкти даних виходять на перший план, то особливі вимоги пред'являються до структур БД, які використовуються для створення інформаційних сховищ. Принципово відрізняються і структури баз даних для OLTP-й OLAP-систем. У другому випадку в них міститься тільки та інформація, яка може бути корисною для роботи систем підтримки прийняття рішень (DSS).
Інтегрованість даних
Дані в інформаційне сховище надходять з різних джерел, де вони можуть мати різні імена, атрибути, одиниці виміру і способи кодування. Після завантаження в OLAP дані очищаються від індивідуальних ознак, тобто як би приводяться до спільного знаменника. З цього моменту вони представляються користувачу у вигляді єдиного інформаційного простору.
Наприклад, якщо в чотирьох різних додатках стать клієнта кодувалася чотирма різними способами, то в інформаційному сховищі буде використана єдина для всіх даних схема кодування (ч або ж).
Інваріантність у часі
У OLTP-системах істинність даних гарантована тільки в момент читання, оскільки вже в наступну мить вони можуть змінитися в результаті чергової транзакції. Важливою відмінністю OLAP від OLTP-систем є те, що дані в них зберігають свою істинність в будь-який момент процесу читання.
У OLTP-системах інформація часто модифікується як результат виконання яких-небудь транзакцій. Тимчасова інваріантність даних в OLAP досягається за рахунок введення полів з атрибутом «час» (день, тиждень, місяць) в ключі таблиць. В результаті записи в таблицях OLAP ніколи не змінюються, являючи собою знімки даних, зроблені в певні відрізки часу. В OLAP містяться як би моментальні знімки даних. Кожен елемент у своєму ключі явно або опосередковано зберігає часовий параметр, наприклад день, місяць або рік.
Непорушність - стабільність інформації
У OLTP-системах записи можуть регулярно додаватися, вилучатися і редагуватися. В OLAP-системах, як випливає з вимоги тимчасової інваріантності, одного разу завантажені дані теоретично ніколи не змінюються. По відношенню до них можливі тільки дві операції: початкове завантаження і читання (доступ). Це і визначає специфіку проектування структури бази даних для OLAP. Якщо при створенні OLTP-систем розробники повинні враховувати такі моменти, як відкати транзакцій після збою сервера, боротьба з взаємними блокуваннями процесів (deadlocks), збереження цілісності даних, то для OLAP дані проблеми не настільки актуальні - перед розробниками стоять інші завдання, пов'язані, наприклад, із забезпеченням високої швидкості доступу до даних.
Мінімізація надмірності інформації
Оскільки інформація в OLAP завантажується з OLTP-систем, виникає питання, чи не веде це до надмірної надмірності даних? Насправді надмірність мінімальна (близько 1%!), Що пояснюється наступними причинами:
- при завантаженні інформації з OLTP-cистем в OLAP дані фільтруються. Багато з них взагалі не потрапляють в OLAP, оскільки позбавлені сенсу з точки зору використання в системах підтримки прийняття рішень;
- інформація в OLTP-системах носить, як правило, оперативний характер, і дані, втративши актуальність, видаляються. В OLAP, навпаки, зберігається історична інформація, і з цієї точки зору перекриття вмісту OLAP даними OLTP-систем виявляється досить незначним;
- в OLAP зберігається якась підсумкова інформація, яка в базах даних OLTP-систем взагалі відсутня;
- під час завантаження в OLAP записи сортуються, очищаються від непотрібної інформації та призводять до єдиного формату. Після такої обробки це вже зовсім інші дані.
Шрифти
Розмір шрифта
Колір тексту
Колір тла