Лабораторна робота 5-6
Лабораторна робота 5-6.
Методи підготовки та розробки ознак для побудови моделі машиного навчання
1. Методи масштабування (10 балів)
- провести масштабування кількісних ознак за допомогою метода стандартизації (StandatdScaler)
- провести масштабування кількісних ознак за допомогою метода масштабування (MinMaxScaler)
- провести масштабування кількісних ознак за допомогою метода "стійкого" масштабування (RobustScaler)
2. Методи кодування якісних ознак (10 балів)
- провести кодування якісних ознак із використанням методу OneHotEncoding
- провести кодування якісних ознак із використанням методу LabelEncoding
- провести кодування якісних ознак із використанням методу TargetEncoding
3. Сформувати шість наборів даних для подальшого аналізу підготовлених різними способами поєднання методів підготовки даних (10 балів)
- Набір 1 - Метод масштабування_1, метод_кодування_1
- Набір 2 - Метод масштабування_2, метод_кодування_1
- Набір 3 - Метод масштабування_1, метод_кодування_2
- Набір 4 - Метод масштабування_2, метод_кодування_2
- Набор 5 - Метод масштабування_1, метод_кодування_3
- Набор 6 - Метод масштабування_2, метод_кодування_3
Всі етапи проводити в Jupyter Notebook
Завантажити Jupyter Notebook із кодом що виконує завдання та тестовий набір даних для перевірки роботоспроможності коду
Контрольні питання для самоперевірки (5 балів)
- У чому полягає мета масштабування ознак перед використанням моделей машинного навчання?
- Чим відрізняється стандартизація (StandardScaler) від нормалізації (MinMaxScaler)?
- Які переваги має «стійке» масштабування (RobustScaler) у порівнянні з іншими методами?
- У яких випадках некоректне масштабування ознак може негативно вплинути на якість моделі?
- Що таке категоріальні (якісні) ознаки та чому їх необхідно кодувати перед використанням у моделях?
- У чому різниця між методами One-Hot Encoding та Label Encoding?
- Які переваги та обмеження має метод Target Encoding у порівнянні з One-Hot Encoding?
- Чому використання Label Encoding може призвести до помилкових інтерпретацій у моделях, що враховують порядок чисел?
- Які особливості обчислювальних ресурсів та розмірності даних варто враховувати при використанні One-Hot Encoding?
- Як змінюється структура даних після застосування Target Encoding?
- Чому важливо тестувати різні поєднання методів масштабування та кодування ознак?
- Яким чином створення кількох підготовлених датасетів допомагає у виборі найкращої моделі?
- Як у Jupyter Notebook можна організувати процес побудови кількох варіантів датасетів для експериментів?
- Які критерії доцільно використовувати для оцінки якості наборів даних, підготовлених різними методами?
- У яких типах моделей машинного навчання найбільш критичним є правильний вибір методу масштабування та кодування ознак?
Критерії оцінювання:
Максимальна кількість балів - 35.
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання