Модуль 1. Самостійна робота
Модуль 1. Самостійна робота
На самостійну роботу з кожного блок обирається по два питання.
Блок 1.
- Пояснити роль попередньої обробки даних у побудові систем штучного інтелекту. Навести приклади з аграрної або медичної сфери.
- Порівняти підходи навчання з учителем і без учителя: які особливості у підготовці даних для цих методів?
- Провести розвідувальний аналіз обраного набору даних: визначити пропуски, аномалії та типи змінних.
- Використати бібліотеку
pandas-profiling
абоSweetviz
для автоматизації EDA та зробити висновки. - Дослідити ефективність методів виправлення пропущених значень:
SimpleImputer
таKNNImputer
. Порівняти результати. - Продемонструвати на прикладі різницю між методами виявлення викидів: «3 сигми», IQR, Percentile.
- Провести візуалізацію зв’язків між ознаками за допомогою теплової карти кореляції (
seaborn.heatmap
). - Пояснити відмінність між методами масштабування даних: StandardScaler, MinMaxScaler, RobustScaler.
- Виконати кодування категоріальних змінних трьома методами (One-Hot, Label, Target) та оцінити придатність кожного.
- Створити декілька варіантів підготовлених датасетів із різними комбінаціями методів та порівняти їх між собою.
Блок 2.
- Завантажити датасет (наприклад, Titanic або Iris) та виконати його попередній аналіз: визначити кількість змінних, типи даних, пропуски.
- Реалізувати виявлення та обробку пропущених значень трьома різними методами (
mean
,median
,KNNImputer
) і порівняти результати. - Виконати масштабування числових ознак за допомогою
StandardScaler
іMinMaxScaler
, візуалізувати розподіли до і після нормалізації. - Провести кодування категоріальних змінних (One-Hot Encoding та Label Encoding) і пояснити різницю між підходами.
- Побудувати графік розподілу числових змінних із використанням бібліотек
matplotlib
іseaborn
. - Реалізувати метод виявлення викидів (IQR, Z-score) та порівняти результати.
- Сформувати нові ознаки (feature engineering), наприклад, обчислити співвідношення між двома існуючими змінними.
- Виконати аналіз кореляції між ознаками та побудувати теплову карту кореляційної матриці.
- Реалізувати генерацію синтетичних даних для балансування класів методом SMOTE.
- Скласти підсумковий звіт у Jupyter Notebook, що містить код, графіки й текстові висновки.
Критерії оцінювання:
- повна відповідь за 1 питання першого блоку - 2 бали;
- реалізоване завдання з поясненням питання другого блоку - 3 бали
Максимальна кількість балів - 10
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання