Практична робота 1. Концепція дейтамайнінгу. Введення в програму R
Практична робота №1. КОНЦЕПЦІЯ ДЕЙТА МАЙНІНГУ. ВВЕДЕННЯ В ПРОГРАМУ R
Тема 1. КОНЦЕПЦІЯ ДЕЙТА МАЙНІНГУ. ВВЕДЕННЯ В ПРОГРАМУ R
Мета роботи: встановлення програми R та ознайомлення з алгоритмом її роботи.
Завдання. Встановлення програми R та RStudio. Вивчення опису типів даних та загрузка об’єктів з інших програм відповідно до методичних вказівок.
Методичні вказівки. Система R – це вільно розповсюджуване програмне середовище з відкритим кодом, що розвивається в рамках проекту GNU. У системі реалізовано вбудовану мову програмування R.
Мова R виникла як вільний аналог мови S-PLUS, що у свою чергу є комерційною реалізацією мови розрахунків S.
Встановлення R:
- перейдіть за посиланням https://cloud.r-project.org/
- оберіть вашу операційну систему
- завантажте відповідний пакунок
- інсталюйте його.
Встановлення RStudio:
- перейдіть за посиланням https://www.rstudio.com/products/rstudio/download/
- оберіть вашу операційну систему
- завантажте відповідний пакунок
- інсталюйте його.
R має модульну структуру. Ви встановлюєте базовий функціонал і розширяєте його потрібними вам бібліотеками. Зараз у репозиторії CRAN наличується ~ 7000 бібліотек. Для встановлення бібліотеки використовується команда install.packages.
Скопіюйте у R файл ці команди:
install.packages('dplyr', dependencies = TRUE)
install.packages('ggplot2', dependencies = TRUE)
Рис. 1.1 – Середовище розробки R-Studio
Середовище розробки R-Studio складається з наступних компонентів: – панель меню;
– панель інструментів;
– консоль;
– запрошення (командний рядок);
– панель, що містить історію і робочий простір;
– панель з графіками. Консоль RStudio надає цілий ряд опцій, що полегшують роботу з мовою R. Пропонуємо ознайомитися з ними нижче. Наприклад, автоматичне завершення коду: набираючи початок команди середовище пропонує користувачу продовження (рис.1.2).
Щоб виконати код, виділіть рядки та натисніть піктограму Run з зеленою стрілкою або комбінацію клавіш CTRL + ENTER.
Система R підтримує два режими роботи – інтерактивний режим і режим скрипта.
При запуску програми RGui автоматично з’являється вікно R Console. Це командне вікно (консоль), у якому користувач вводить команди, а програма друкує результати. У ході роботи в основному графічному вікні можуть з’явитися й інші вікна – редактор скриптів, вікна із графічним результатом виконання команд (графіки) тощо.
Команди вводяться користувачем у консолі (командному вікні) після символу запрошення, що має вигляд «>».
Після натискання кнопки Enter введена команда надходить на обробку. В одному рядку можна ввести кілька команд, розділяючи їх символом «;». Одну команду можна розташувати на двох і більше рядках. Для цього слід натиснути Enter, тоді на новому рядку замість «>» з’явиться запрошення «+».
Символ «#» означає початок коментарю. Усе, що перебуває після цього знаку в одному рядку, ігнорується програмою.
Кнопки стрілок «вгору» та «вниз» на клавіатурі дозволяють здійснювати навігацію серед раніше введених команд (можна вибрати одну з попередніх команд).
За допомогою кнопок стрілок «вліво» та «вправо» можна переміщатися у вже введеній команді, зокрема, редагуючи її.
Робота зі скриптами. Скрипт – це самостійно написана програма з використанням всіх можливостей R. Щоб створити новий скрипт, потрібно у командному меню вибирати Файл, а потім вибрати Новий скрипт. Відкриється нове вікно, що представляє із себе редактор, у якому можна писати та редагувати текст створюваної програми.
Запуск на виконання рядка або виділеного блоку – комбінація клавіш Ctrl+R.
Деякі основні команди R.
help(ім’я_функції) або ?ім’я_функції – виклик контекстної допомоги.
ls() або objects() виводять на екран всі створені протягом сесії об’єкти (дуже корисно, якщо програма велика).
rm(ім’я_об’єкта) – видаляє об’єкт із зазначеним ім’ям.
example(ім'я_функції) – виводить приклад (якщо є) для обраної функції.
history – буде виведене нове вікно, у якому перераховані n останніх команд.
getwd() – вивід поточної (робочої) директорії.
setwd('ім’я_нової_робочої_директорії') – зміна робочої директорії.
dir() – виводить список файлів у робочій директорії.
source('ім’я_файлу.R') – збереження R-коду в поточній директорії у файлі із зазначеним ім’ям і розширенням .R.
sink('ім’я_файлу.розширення') – перенаправляє потік виводу з екрану в зазначений файл; повторний виклик команди sink() закриває файл.
rnorm(n,mean,sd) – генерація послідовності n випадкових чисел, що мають нормальний розподіл з математичним очікуванням mean і середнім квадратичним відхиленням sd.
Типи даних в R.
Всі дані в R можна можуть мати наступні типи:
– numeric – об’єкти даного класу діляться на цілочислові (integer) і дійсні (double);
– complex – об’єкти комплексного типу;
– logical – логічні об’єкти, приймають тільки два значення: FALSE (F) і TRUE (T);
– character – символьні об’єкти (символьні змінні задаються або в подвійних лапках, або в одинарних).
Дізнатися тип змінної можна з допомогою функції class.
Типи R обєктів:
- Вектор
- Матриця
- Список(list)
- Фактор
- Таблиця даних (data frame)
Вектор – набір значень одного типу. Утворюється з допомогою функції с (скорочення concatenate).
Матриця – по суті двовимірний вектор.
Дата фрейм (data frame) використовується для роботи з таблицями.
Є три способи створити data frame.
1. Об'єднати вектори однакової довжини, використовуючи команду data.frame
2. Використовуючи вбудовані набори даних
3. Зчитати з файла
Для створення нового файлу використовуйте меню File -> New:
Для відкриття існуючого файлу необхідно скористатися меню File -> Open або Open Recent (для відкриття файлу, з яким робота здійснювалася недавно). Якщо відкрито кілька файлів одночасно, швидкий перехід від одного документа до іншого виконується за допомогою відповідних закладок у верхній частині вікна редактора коду. Для навігація між великою кількістю відкритих файлів служить іконка >> в правій верхній частині вікна Редактора; можна також скористатися меню View -> Switch to.
RStudio підтримує виконання коду безпосередньо з вікна Редактора (виконувані команди надсилаються в Консоль, де з'являється також результат їх виконання).
Для виконання поточного рядка коду можна скористатися поєднанням клавіш Ctrl + Enter або кнопкою Run Line (s), розташованої у верхній частині вікна Редактора:
Правилами підготовки завантаження даних з інших програм:
- в імпортованої таблиці з даними не повинно бути порожніх клітинок. Якщо деякі значення з тих чи інших причин відсутні, замість них слід ввести NA.
- імпортовану таблицю з даними рекомендується перетворити в простий текстовий файл з одним з допустимих розширень. На практиці зазвичай використовуються файли з розширенням .txt, в яких значення змінних розділені знаками табуляції (tab-delimited files), а також файли з розширенням .csv (comma separated values), в яких значення змінних розділені комами.
- як першого рядка в імпортованої таблиці рекомендується ввести заголовки стовпців-змінних. Така рядок - зручний, але не обов'язковий елемент завантаження. Якщо вона відсутня, то про це необхідно повідомити в описі команди, яка буде керувати завантаженням файлу (наприклад, read.table () - див. Нижче). Усі наступні рядки файлу в якості першого елемента містять заголовки рядків (якщо такі передбачені), після яких слідують значення кожної з наявних в таблиці змінних. В іменах стовпців таблиці не допускається наявність прогалин. Крім того, імена стовпців (так само як і імена рядків) не повинні починатися з точки або чисел. Щоб уникнути пов'язаних з кодуванням проблем все текстові величини в імпортованих файлах рекомендується створювати з використанням літер латинського алфавіту.
- файл який підлягає імпортування рекомендується помістити в робочу папку програми, тобто папку, в якій R за замовчуванням буде "намагатися знайти" цей файл. Щоб з'ясувати шлях до робочої папці R на своєму комп'ютері використовуйте команду getwd () (get working directory - дізнатися робочу директорію); наприклад:
Змінити робочу директорію можна за допомогою команди setwd () (set working directory - створити робочу директорію):
Для завантаження підготовлених файлів досить використовувати мінімальний набір аргументів функції read.table ().
read.table(): функція read.table є найбільш зручним способом зчитування в прямокутній сітці даних.
read.table ("file1.txt", header = TRUE, row.names = 1, sep = ","): header = TRUE: Файл містить назви змінних як його перший рядок.
row.names = 1: це може бути вектор, що дає фактичні назви рядків, або одне число, що дає стовпець таблиці, що містить назви рядків (поточний сценарій) або рядок символів, що дає ім'я стовпця таблиці, що містить рядок імена. Якщо row.names відсутній, рядки автоматично пронумеруються.
sep = ",": Використовується для розділення між полями. Типовим параметром є пробіл.
Відсутні значення: за замовчуванням файл передбачає, що він містить рядок символів NA для представлення відсутніх значень, але це може бути змінено аргументом na.strings, який є вектором одного або декількох символьних зображень відсутніх значень.
Як приклад припустимо, що нам необхідно завантажити файл hydro_chem.txt, який зберігається в робочій папці R і містить дані за хімічним складом води деякого водойми. Завантажується таблицю даних ми маємо намір зберегти як об'єкта з ім'ям chem. Функції read.table () в цьому випадку може бути застосована в такий спосіб:
chem <- read.table (file = "hydro_chem.txt", header = TRUE)
Якщо у вас є доступ до Excel, експортуйте потрібні дані з Excel у форматі, відокремленій табуляцією або розділеними комами, і використовуйте read.delim () або read.csv (), щоб імпортувати його в R. read.delim () або прочитати. csv () подібні до read.table ().
Крок 1: Збережіть файл excel як файл fuel.csv.
Крок 2: у R: fuel <- read.csv ("fuel.csv", header = T)
Як зазначено вище, часто імпортовані в R файли мають формат csv. Для їх завантаження можна скористатися тією ж функцією read.table (), але при цьому слід вказати, що як роздільник значень змінних у файлі використовується кома:
chem <- read.table (file = "hydro_chem.csv", header = TRUE, sep = ",")
Аналогом read.table () для зчитування csv-файлів є функція read.csv ():
chem <- read.csv("fuel.csv" , header = T)
Якщо підлягає завантаженні файл зберігається в папці, відмінній від робочої папки R, то слід вказати повний шлях до нього. При цьому користувачам операційних систем Windows необхідно пам'ятати, що для вказівки повних шляхів до файлів в програмі R використовується не зворотний одинарний слеш (\), а прямий одинарний (/) або подвійний зворотний слеш (\\). Наприклад, наступні дві команди будуть успішно сприйняті R і приведуть до ідентичному результату - завантаженні файлу hydro_chem.txt і збереженню його у вигляді об'єкта chem:
chem <- read.csv (file = "D: \\ Documents \\ hydrochem.txt", header = TRUE)
chem <- read.csv (file = "D: /Documents/hydrochem.txt", header = TRUE)
Для інтерактивного вибору завантаження, який зберігається поза робочої папки R, можна застосувати допоміжну функцію file.choose () (вибрати файл). Виконання цієї команди призводить до відкриття звичайного діалогового вікна операційної системи Windows, в якому користувач вибирає папку з необхідним файлом. Дуже зручно поєднувати file.choose () з командами read.table () або read.csv (), наприклад:
chem <- read.table(file = file.choose(), header = TRUE, sep = ",")
Форма подання: виконана робота надсилається на сайт у форматі Word або за архівованих файлів.
Критерії оцінювання: за правильно і вчасно виконану роботу максимальна оцінка - 10 балів. Оцінюються правильність розрахунків і зроблених висновків.
10 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно, логічно і послідовно, немає зауважень щодо змісту.
Під час захисту роботи на парі студент вправно формулює висновки за темою дослідження.
9 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно і послідовно, немає суттєвих зауважень щодо змісту.
Під час захисту роботи на парі студент формулює висновки за темою дослідження.
8 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено правильно і послідовно, немає суттєвих зауважень щодо змісту.
Студент формулює висновки з певними неточностями або ті, які не відповідають запропонованій темі.
7 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у повному обсязі і викладено з певними помилками у розрахунках, немає суттєвих зауважень щодо змісту. Неакуратне оформлення.
Студент формулює висновки з певними неточностями або ті, які не відповідають запропонованій темі.
6 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано у певному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
1-5 балів: Практична робота виконана згідно навчально-методичних вимог за запропонованим завданням у розрізі окремого варіанту.
Матеріал опрацьовано фрагментарно, представлено не у повному обсязі і викладено з помилками у розрахунках. Неакуратне оформлення.
Студент формулює суперечливі, неправильні висновки або ті, які не відповідають запропонованій темі.
Шрифти
Розмір шрифта
Колір тексту
Колір тла