Лабораторна робота 3-4
Лабораторна робота 3-4
Методи розвідувального аналізу (EDA) та підготовки даних
1. Підготувати дані для аналізу (побудови МЛ моделі)
2. Провести загальний аналіз даних структури та якості даних
- типи полів
- назви та сутність кожного признака
- дослідити загальні статистичні харакреристики кожного признака
- зробити ProfileReport
3. Провести аналіз та виправлення пропущених даних різними способами
(якщо обрані дані не містять пропущених значень, самостійно видалити 5% значень за обраними зміними)
- Провести виправлення пропущених даних із використанням sklearn SimpleImputer
- Провести виправлення пропущених даних із використанням sklearn KNNImputer
4. Виявлення та обробка викидів та аномалій
- виявити аномалії в даних із використанням методів 3 Сигма, Inter-Quartile Range (IQR), a-Percentile
(якщо обрані дані не містять викидів, самостійно додати 5 нетипових значень за обраними зміними) - виправити викиди із використанням методу Capping
5. Провести пошук зв'язків та кореляцій
Всі етапи аналізу проводити в Jupyter Notebook
Завантажити Jupyter Notebook із проведеним аналізом
Контрольні питання для самоперевірки
- У чому полягає мета розвідувального аналізу даних (EDA) та яке його значення для машинного навчання?
- Які основні етапи включає попередня підготовка даних перед побудовою моделі?
- Які типи змінних (числові, категоріальні, бінарні тощо) найчастіше зустрічаються в датасетах і як вони впливають на подальший аналіз?
- Як за допомогою статистичних характеристик (середнє, медіана, мода, дисперсія) можна оцінити якість даних?
- Для чого використовується ProfileReport (pandas-profiling)? Яку інформацію він надає досліднику?
- Які причини виникнення пропущених даних? Як вони класифікуються (MCAR, MAR, MNAR)?
- У чому відмінність між методами заповнення пропусків за допомогою SimpleImputer і KNNImputer?
- Чому іноді під час лабораторних робіт доцільно штучно створювати пропуски або викиди у даних?
- Які основні методи виявлення викидів ви знаєте? Поясніть принципи роботи методів «3 сигма», IQR та Percentile.
- Що таке метод Capping і як він використовується для обробки викидів?
- У чому різниця між аномаліями та викидами? Чи завжди їх потрібно виправляти?
- Як кореляційний аналіз допомагає виявити взаємозв’язки між змінними? Які ризики може нести мультиколінеарність?
- Які інструменти Python найчастіше застосовуються для візуалізації залежностей між ознаками (наприклад, теплові карти)?
- Чому всі етапи EDA доцільно виконувати у Jupyter Notebook? Які переваги цього середовища?
- Які основні висновки варто зробити після завершення розвідувального аналізу даних?
Критерії оцінювання:
за викориний та оформлений кожний пункт - 5 балів (5 х 5 = 25 балів)
відповіді на контрольні питання та захист - 5 балів
Максимальна кількість бвлів - 30 балів
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання