Практична робота 2. Алгоритми Data Mining: класифікація і регресія
Практична робота №2. АЛГОРИТМИ DATA MINING: КЛАСИФІКАЦІЯ І РЕГРЕСІЯ
Тема 2. АЛГОРИТМИ DATA MINING: КЛАСИФІКАЦІЯ І РЕГРЕСІЯ
Мета роботи: Створення нового dataframe. Провести описову статистику даних. Здійснити кореляційний та регресійний аналіз даних використовуючи програму R. Провести оцінку лінійної моделі впливу факторів.
Завдання 1. На основі даних сайту Державної служби статистик України (http://www.ukrstat.gov.ua/) здійснити підбір факторів для здійснення моделювання (1 результативний показник (У) та 2 факторні (Х1, Х2).
Завдання 2. На основі відібраних факторів розрахувати коефіцієнт кореляції простий та побудувати діаграму розсіювання.
Завдання 3. Здійснити регресійний аналіз, який включає розрахунок даних описової статистики, рівняння регресії, прогноз та їх графічне забраження
Методичні вказівки.
Основні функції мови програмування R https://r-analytics.blogspot.com/p/blog-page_06.html#.XIjVzlNR0ps
КОРЕЛЯЦІЙНИЙ АНАЛІЗ
df <- mtcars – загрузка даних
cor.test(x = df$mpg, y = df$hp) – коефіцієнт кореляції простий
fit <- cor.test(x = df$mpg, y = df$hp) – запис коефіцієнта кореляції у вигляді перемінної
cor.test(~ mpg + hp, df) – по іншому визначити коефіцієнт кореляції
str(fit) – структура листа (розгорнутий вигляд перемінної)
fit$p.value – визвати значення певного показника, в даному випадку р-оцінки
plot(x = df$mpg, y = df$hp) – побудувати графік
ggplot(df, aes(x = mpg, y = hp, col = factor(cyl)))+
geom_point(size = 5)+
facet_grid(. ~ am)
###########################################
df <- mtcars – сабсет лише з кількісними даними
df_numeric <- df[, c(1,3:7)]
pairs(df_numeric) – дає можливість вивести кореляційну матрицю (діаграму розсіювання)
cor(df_numeric) – розраховує лише коефіцієнт кореляції
fit <- corr.test(df_numeric) – присвоюємо значенню дані
fit$r
fit$p
fit$adjust
РЕГРЕСІЙНИЙ АНАЛІЗ
df <- mtcars
df_numeric <- df[,c(1,3:7)]
fit <- lm(mpg ~ hp, df) – побудова лінійної моделі
summary(fit) – виведення детальніших даних по моделі, разом з описовою статистикою
ggplot(df, aes(hp, mpg))+
geom_point(size = 5)+
geom_smooth(method = "lm")+
facet_grid(.~cyl) – згладжування даних
ggplot(df, aes(hp, mpg))+
geom_smooth(method = "lm", se = F)+
facet_grid(.~cyl)
fitted_values_mpg <- data.frame(mpg = df$mpg, fitted = fit$fitted.values )
new_hp <- data.frame(hp = c(100, 150, 129, 300))
new_hp$mpg <- predict(fit, new_hp)
predict(fit, new_hp)
##################################
my_df <- mtcars
my_df$cyl <- factor(my_df$cyl, labels = c("four", "six", "eight"))
fit <- lm(mpg ~ cyl, my_df)
ПАМЯТКА
cor.test(mtcars$mpg, mtcars$disp) # Розрахунок кореляції Пірсона
cor.test(~ mpg + disp, mtcars) # запис через формулу
cor.test(mtcars$mpg, mtcars$disp, method = "spearman") # Розрахунок кореляції Спірмена
cor.test(mtcars$mpg, mtcars$disp, method = "kendall") # Розрахунок кореляції Кендала
cor(iris[, -5]) # побудова кореляційної матриці
fit <- lm(mpg ~ disp, mtcars) # побудова лінійної регресії
fit$coefficients # коефіцієнти регресії
fit$fitted.values # прогноз значення залежної змінної
При наявності однакових значень в змінних розрахунок непараметрических кореляцій буде супроводжуватися попередженням про неможливість розрахувати точне значення p - value.
Якщо в ваших даних є однакові спостереження, але ви хочете розрахувати непараметричних кореляцію, використовуйте функцію spearman_test з пакета coin
library(coin)
spearman_test(~ mpg + disp, mtcars)
Зверніть увагу на відмінності в графіках. Те що в першому aes () буде поширюватися на всі верстви. А то, що в aes () конкретного geom - тільки на нього
ggplot(mtcars, aes(mpg, disp, col = factor(am)))+
geom_point()+
geom_smooth()
ggplot(mtcars, aes(mpg, disp))+
geom_point(aes(col = factor(am)))+
geom_smooth()
ggplot(mtcars, aes(mpg, disp))+
geom_point()+
geom_smooth(aes(col = factor(am)))
Форма подання: виконана робота надсилається на сайт у форматі Word.
Критерії оцінювання: за правильно і вчасно виконану роботу максимальна оцінка - 15 балів. Оцінюються правильність розрахунків і зроблених висновків.
15 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно, логічно і послідовно, немає зауважень щодо змісту.
Під час захисту роботи на парі студент вправно формулює висновки за темою дослідження.
14 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно і послідовно, немає суттєвих зауважень щодо змісту.
Під час захисту роботи на парі студент формулює висновки за темою дослідження.
13 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно і послідовно, немає суттєвих зауважень щодо змісту.
Студент формулює висновки з певними неточностями або ті, які не відповідають запропонованій темі.
12 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено з певними помилками у розрахунках, немає суттєвих зауважень щодо змісту. Неакуратне оформлення.
Студент формулює висновки з певними неточностями або ті, які не відповідають запропонованій темі.
10 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у певному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
9 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням.
Матеріал опрацьовано у певному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
8 балів: Практична робота виконана згідно навчально-методичних вимог.
Матеріал опрацьовано у не певному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
1-7 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано фрагментарно, представлено не у повному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
- 13 березня 2019, 10:29
- 13 березня 2019, 10:29
- 13 березня 2019, 10:29
Шрифти
Розмір шрифта
Колір тексту
Колір тла