Библиотека сайта rus-linux.net
Введение в GNU R
Оригинал: Introduction to GNU R on Linux Operating SystemАвтор: Renata Rendek
Дата публикации: январь 2013 года
Перевод: А. Кривошей
Дата перевода: апрель 2013 г.
1. Введение
В этой статье будет говориться в основном об установке R в Linux, но также покажем простой пример использования R для построения графика. Это первая статья в серии, посвященной R, которая будет интересна всем, кто хочет научиться пользоваться R. Главная цель данной статьи - краткий обзор R с иллюстрациями в виде примеров.
2. Что такое GNU R?
R - это язык программирования с открытым исходным кодом (программный пакет) и окружение, использующееся в основном для статистического анализа данных. Он лицензирован под GNU General Public License (GPL). R - очень интуитивный язык программирования. С помощью всего нескольких строк кода вы можете сделать очень многое, в основном это связано с тем, что для R имеется большое количество пакетов с препрограммированными функциями. Вы можете получить пакеты R из Comprehensive R Archive Network (CRAN).
Сильные стороны R: графическая визуализация данных, анализ данных, аппроксимация статистических данных.
Слабые стороны R: сложно структурированное хранилище данных, выполнение запросов при работе с большими наборами данных, которые не помещаются в оперативной памяти.
3. Установка GNU R в Linux/Unix
3.1. Система управления пакетами
3.1.1. Debian / Ubuntu / Mint
В Debian и системах на его основе, таких как Ubuntu или Linux Mint, вы можете установить R из стандартных репозиториев. Это предпочтительный способ. С помощью приведенной ниже команды вы можете скачать и установить R вместе со всеми зависимостями:
$ sudo apt-get install r-base
Если в вашей системе недоступна команда sudo, необходимо сначала авторизоваться в терминале как root, а затем установить R с помощью команды:
# apt-get install r-core
3.1.2. Redhat / Fedora / CentOS
Также, как и в дистрибутивах на базе Debian, в Redhat Linux и системах на его базе вы можете использовать команду yum. Инсталляция с помощью yum полностью автоматическая. С помощью приведенной ниже команды вы можете установить R вместе со всеми зависимостями:
$ sudo yum install R
3.2. Установка из исходного кода
Этот метод установки R может быть выбран в качестве последнего средства. Обычно программы устанавливают из исходного кода, если у вас имеются специфичные требования окружения, вы не можете установить ее из стандартных репозиториев, у вас нет привилегий root для установки новых программ в системе, или вы отчаянно нуждаетесь в последней версии R.
Чтобы установить R, сначала необходимо скачать исходный код. Он будет в виде архива, название которого зависит от версии, в нашем случае это R-2.15.2.tar.gz. Далее, необходимо распаковать архив с помощью команды:
$ tar xzf R-2.15.2.tar.gz
При этом будет создана новая директория с аналогичным названием. В нашем случае - R-2.15.2. Перейдите в эту директорию и выполните конфигурационный скрипт "configure":
$ cd R-2.15.2 $ ./configure
С помощью скрипта "configure" вы можете задать различные флаги для настройки компиляции в соответствии с вашим окружением. Если у вас нет каких-либо специфичных требований, вы можете запустить компиляцию с помощью команды:
$ make
При этом R будет скомпилирован в вашей домашней директории, откуда вы сможете его запустить. Следующий этап опциональный и требует привилегий суперпользователя. Если у вас есть права root, вы можете установить новую программу в системе с помощью команды:
$ make install
4. Запуск GNU R в Linux/Unix и пример его использования
Для приведенного ниже примера скачайте файл gnu-r-example.csv и сохраните его в своей домашней директории.
4.1. Запуск R
Давайте запустим R в вашей системе Linux/Unix. Перейдите в свою рабочую директорию с помощью команды cd и введите:
$ R R version 2.15.1 (2012-06-22) -- "Roasted Marshmallows" Copyright (C) 2012 The R Foundation for Statistical Computing ISBN 3-900051-07-0 Platform: x86_64-pc-linux-gnu (64-bit) ....
4.2. Простой пример использования R
Давайте рассмотрим простой пример использования R, включающий извлечение данных из файла с запятыми в качесте разделителя, построение временных рядов и создание диаграммы.
4.2.1. Извлечение данных из файла
Чтобы прочитать файл .csv, в R используется функция read.csv. Например:
> data<-read.csv('example.csv', header=F)
Эта функция считывает числовые данные, хранящиеся в файле gnu-r-example.csv, и помещает их в переменную "data". Теперь "data" - это матрица с одним столбцом. Поэтому, чтобы получить доступ к значениям первого столбца "data", мы пишем data[,1].
4.2.2. Построение графика
Чтобы построить график на базе значений, хранящихся в переменной "data[,1]", используется функция plot:
> plot(data[,1],type='l')
Опция 'type' задает тип рисуемого графика. type='l' означает тип графика - линия (точки соединяются линией).
На рисунке выше показан вывод команды plot. Кроме того, давайте посмотрим пример вывода гистограммы, соответствующей "data[,1]". Это можно сделать с помощью команды:
> hist(data[,1])
Вывод этой функции показан на рисунке ниже.
5. Заключение
Подводя итоги, можно сказать, что в данной статье вы инсталлировали R на платформе Linux\Unix и рассмотрели пример чтения данных из файла read.csv с построением графиков функций. Как вы могли видеть, установка R в Linux сводится к вводу одной команды, что не представляет никакой сложности. Это статья является первой в серии статей об R. Далее мы подробнее рассмотрим все аспекты использования этого языка.