Модульний контроль 2
Модульний контроль 2
Виконати модульну контрольну роботу. Максимальна кількість балів - 30
Варіант 1.
Теоретична частина (12 балів - правильна повна відповідь на кожне питання оцінюється максимально 4 бали)
- Поясніть відмінність між навчанням з учителем та навчанням без учителя. Наведіть приклади задач для кожного підходу.
- Що таке переобучення (overfitting) і недообучення (underfitting)? Які існують методи боротьби з ними?
- Опишіть принцип роботи алгоритму k-Nearest Neighbors (kNN). У яких випадках його доцільно застосовувати?
Практична частина (18 балів - правильно виконане та описане кожне завдання оцінюється максимально 6 бали)
- Виконайте крос-валідацію (k-fold) для моделі з пункту 11 та порівняйте отримані результати з простим train/test split.
- Реалізуйте задачу класифікації текстів (наприклад, визначення тональності відгуків) із використанням TF-IDF та Naive Bayes.
- Побудуйте просту CNN для класифікації зображень із набору MNIST та оцініть точність моделі.
Варіант 2.
Теоретична частина (12 балів - правильна повна відповідь на кожне питання оцінюється максимально 4 бал
- Порівняйте роботу дерев рішень та ансамблевих методів (Random Forest, Gradient Boosting).
- Які метрики застосовуються для оцінки моделей класифікації? Поясніть різницю між Precision, Recall та F1-score.
- Назвіть основні метрики оцінки моделей регресії та поясніть їх інтерпретацію.
Практична частина (18 балів - правильно виконане та описане кожне завдання максимально 6 бали)
- Використовуючи обраний датасет (наприклад, Titanic, Iris або з UCI Repository), побудуйте модель логістичної регресії для задачі класифікації та обчисліть Precision, Recall і F1-score.
- Реалізуйте модель kNN для класифікації та дослідіть, як зміна параметра k впливає на точність.
- Навчіть модель дерева рішень та візуалізуйте його структуру. Проаналізуйте, які ознаки є найбільш значущими.
Варіант 3.
Теоретична частина (12 балів - правильна повна відповідь на кожне питання оцінюється максимально 4 бал
- Що таке крос-валідація та які її переваги у порівнянні зі звичайним поділом даних на train/test?
- Які задачі належать до сфери комп’ютерного зору? Наведіть приклади використання CNN.
- У чому полягають особливості аналізу текстових даних у порівнянні з числовими? Які методи перетворення текстів на ознаки ви знаєте?
Практична частина (18 балів - правильно виконане та описане кожне завдання максимально 6 бали)
- Реалізуйте ансамблеву модель Random Forest і визначте вагомість ознак (feature importance).
- Використайте алгоритм XGBoost для тієї ж задачі й порівняйте його точність з Random Forest.
- Для задачі регресії побудуйте модель лінійної регресії та оцініть її якість за допомогою MAE, MSE та R².
Шрифти
Розмір шрифта
Колір тексту
Колір тла
Кернінг шрифтів
Видимість картинок
Інтервал між літерами
Висота рядка
Виділити посилання