Тема 6. Методи відбору признаків та формування датасетів для тренування

9. Завдання для самостійної роботи

Завдання для самостійної роботи

  • Сформувати датасет на основі відкритих даних
  • Виконати фільтраційний відбір ознак
  • Порівняти результат з моделлю без відбору

Для закріплення матеріалу та формування практичних навичок студентам пропонується виконати низку завдань, спрямованих на застосування методів відбору ознак та зменшення розмірності у реальних сценаріях машинного навчання. Завдання побудовані так, щоб охопити як етапи підготовки даних, так і застосування різних груп методів на практиці.

  1. Формування власного датасету на основі відкритих джерел. Студентам необхідно обрати предметну область (наприклад, медичні показники, економічні індикатори, кліматичні дані) та побудувати набір даних із не менше ніж двадцяти ознак. Особливу увагу слід приділити очищенню, обробці пропусків і нормалізації змінних, адже від якості цього етапу залежить успіх подальшого аналізу.
  2. Застосування фільтраційних методів. Потрібно обчислити статистичні критерії (χ²-тест, ANOVA або коефіцієнти кореляції) для відібраного датасету та визначити, які ознаки мають найбільший зв’язок із цільовою змінною. Результати необхідно представити у вигляді таблиці з ранжуванням ознак за рівнем інформативності та зробити висновки щодо їх значення у моделі.
  3. Застосування обгорткові або вбудовані методи. Рекомендується використати рекурсивне усунення ознак (RFE) або алгоритми Lasso-регресії й порівняти отриманий набір характеристик із результатами попереднього завдання. Важливо не лише виконати технічні обчислення, але й проаналізувати, чи збігаються обрані ознаки та які нові взаємозв’язки вдалося виявити.
  4. Застосування методів зменшення розмірності. Необхідно використати PCA або автоенкодер для побудови компактного латентного представлення даних. Для цього слід зменшити кількість ознак хоча б удвічі та перевірити, як змінюється точність моделі (наприклад, логістичної регресії або Random Forest) після такої трансформації. Особливу увагу слід звернути на інтерпретацію нових компонентів і пояснення, яку інформацію вони відображають.
  5. Порівняння продуктивності моделей. Студентам потрібно побудувати дві моделі — одну без відбору ознак, іншу після застосування методів селекції та зменшення розмірності. Результати слід оцінити за точністю, F1-мірою або іншими релевантними метриками й зробити висновки про доцільність використання кожного підходу.

Виконання цих завдань дозволить студентам не лише закріпити теоретичні знання, але й сформувати практичні компетентності у роботі з даними, необхідні для побудови надійних і продуктивних моделей машинного навчання.

Доступність

Шрифти Шрифти

Розмір шрифта Розмір шрифта

1

Колір тексту Колір тексту

Колір тла Колір тла

Кернінг шрифтів Кернінг шрифтів

Видимість картинок Видимість картинок

Інтервал між літерами Інтервал між літерами

0

Висота рядка Висота рядка

1.2

Виділити посилання Виділити посилання