Лабораторна робота 7-8
Лабораторна робота 7-8.
Тренування та вибір найкращою моделі
1. Для обраної задачі сформулювати та обрати ключовий показник якості моделі
2. Обрати метод валідації (проста або кросс-валідація) та провести розподіл датасетів на тренувальні та валідаційні
3. Обрати декілька типів підходів для моделювання (наприклад лінійна модель, ансамблі дерев (bagging), ансамблі дерев (boosting) та провести тренування кожної з обраних моделей на кожному з підготовлених датасетів для тренування (має бути 18 моделей 6 датасетів х 3 типа моделей)
4. Розрахувати якість кожної з натренованих моделей на відповідних валідаційних датасетах
5. Обрати найкращий спосіб підготовки даних та тип моделі для прогнозування
6. Побудувати порівняльну таблицю та/або візуалізацію результатів (наприклад, heatmap або barplot), де для кожної моделі та способу підготовки даних відобразити обчислені метрики якості. На основі цієї візуалізації зробити узагальнений висновок щодо стабільності та переваг кожного підходу.
Всі етапи проводити в Jupyter Notebook
Завантажити Jupyter Notebook із кодом що виконує завдання та тестовий набір даних для перевірки роботоспроможності коду
Контрольні питання для самоперевірки
- У чому полягає мета вибору ключового показника якості моделі? Які приклади таких показників ви знаєте для задач класифікації та регресії?
- Чому важливо визначати метрику оцінювання ще до початку побудови моделей?
- У чому відмінність між простою валідацією (train/test split) та крос-валідацією? Які переваги й недоліки має кожен підхід?
- Чому для оцінки моделей недостатньо використовувати лише одну метрику (наприклад, точність/accuracy)?
- Які основні типи моделей машинного навчання застосовуються для задач класифікації та регресії?
- У чому полягає принцип роботи лінійних моделей і які їхні обмеження у складних задачах?
- Яка ідея лежить в основі ансамблів дерев рішень? Чим відрізняється bagging від boosting?
- У яких випадках ансамблеві методи суттєво перевершують прості моделі, а у яких — можуть виявитися менш ефективними?
- Як кількість та якість підготовлених датасетів впливає на результати моделювання?
- Чому для цієї лабораторної роботи необхідно натренувати 18 моделей? Яку роль це відіграє у виборі найкращої?
- Як проводиться обчислення метрик якості на валідаційних наборах даних?
- Які фактори можуть вплинути на стабільність результатів під час крос-валідації?
- Чому важливо порівнювати моделі не лише за якістю прогнозів, а й за швидкістю навчання та використанням ресурсів?
- Як можна зробити висновок про найкращу комбінацію підготовки даних і типу моделі для конкретної задачі?
- Які кроки слід виконати для того, щоб узагальнити результати всіх експериментів та представити обґрунтований вибір моделі?
Критерії оцінювання:
- кожне завдання оцінюється в 5 балів максимум (повнота, правильність, креативне мислення та вміння представляти) - 6 завдань х 5 балів = 30 балів
- відповіді на питання та оформлення звіту - 5 балів
Максимальна кількість балів - 35 балів
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання