Модуль 2. Самостійна робота
Модуль 1. Самостійна робота
На самостійну роботу з кожного блок обирається по два питання.
Блок 1.
- Обґрунтувати значення відбору ознак для формування тренувальних датасетів. Навести приклади з практики.
- Виконати відбір ознак за допомогою статистичних методів (χ², ANOVA, кореляція). Проаналізувати результати.
- Використати вбудовані методи відбору ознак (Lasso, Random Forest). Порівняти з результатами статистичних тестів.
- Сформувати кілька моделей (лінійна регресія, Random Forest, XGBoost) та порівняти їх якість на однакових даних.
- Провести крос-валідацію для обраної моделі. Пояснити її переваги над простим поділом на train/test.
- Обчислити метрики класифікації (Precision, Recall, F1-score, ROC-AUC) та пояснити, у яких випадках кожна є найважливішою.
- Оцінити якість моделей регресії за допомогою MAE, MSE, RMSE та R². Зробити висновки.
- Реалізувати задачу аналізу текстів (класифікація відгуків, визначення тематики). Використати бібліотеки
scikit-learn
абоNLTK
. - Реалізувати задачу комп’ютерного зору: розпізнавання об’єктів або класифікація зображень за допомогою CNN.
- Провести порівняння моделей для однієї задачі (наприклад, класифікації текстів або зображень) та обґрунтувати вибір найкращої.
Блок 2.
- Побудувати модель лінійної регресії для прогнозування цільової змінної та обчислити MAE, MSE, RMSE.
- Навчити модель логістичної регресії для класифікації бінарної ознаки та оцінити її за метриками Precision, Recall, F1-score.
- Реалізувати алгоритм k-Nearest Neighbors (kNN) для класифікації та візуалізувати кордони рішень.
- Побудувати модель Random Forest для задачі класифікації та дослідити важливість ознак (
feature importance
). - Використати XGBoost для тієї ж задачі й порівняти результат з Random Forest.
- Реалізувати задачу класифікації зображень із використанням згорткової нейронної мережі (CNN) на наборі MNIST чи CIFAR-10.
- Здійснити крос-валідацію (k-fold) для обраної моделі та пояснити відмінність від train/test split.
- Навчити модель для аналізу текстів (класифікація відгуків на позитивні/негативні) із використанням TF-IDF.
- Реалізувати задачу семантичної сегментації або розпізнавання об’єктів у зображеннях, використовуючи попередньо натреновані моделі (наприклад, YOLO чи U-Net).
- Порівняти якість кількох моделей на одному датасеті та підготувати висновок про найпридатнішу для задачі.
Критерії оцінювання:
- повна відповідь за 1 питання першого блоку - 2 бали;
- реалізоване завдання з поясненням питання другого блоку - 3 бали
Максимальна кількість балів - 10
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання