Наши партнеры

UnixForum





Библиотека сайта rus-linux.net

Введение в GNU R

Оригинал: Introduction to GNU R on Linux Operating System
Автор: Renata Rendek
Дата публикации: январь 2013 года
Перевод: А. Кривошей
Дата перевода: апрель 2013 г.

1. Введение

В этой статье будет говориться в основном об установке R в Linux, но также покажем простой пример использования R для построения графика. Это первая статья в серии, посвященной R, которая будет интересна всем, кто хочет научиться пользоваться R. Главная цель данной статьи - краткий обзор R с иллюстрациями в виде примеров.

2. Что такое GNU R?

R - это язык программирования с открытым исходным кодом (программный пакет) и окружение, использующееся в основном для статистического анализа данных. Он лицензирован под GNU General Public License (GPL). R - очень интуитивный язык программирования. С помощью всего нескольких строк кода вы можете сделать очень многое, в основном это связано с тем, что для R имеется большое количество пакетов с препрограммированными функциями. Вы можете получить пакеты R из Comprehensive R Archive Network (CRAN).

Сильные стороны R: графическая визуализация данных, анализ данных, аппроксимация статистических данных.

Слабые стороны R: сложно структурированное хранилище данных, выполнение запросов при работе с большими наборами данных, которые не помещаются в оперативной памяти.

3. Установка GNU R в Linux/Unix

3.1. Система управления пакетами

3.1.1. Debian / Ubuntu / Mint

В Debian и системах на его основе, таких как Ubuntu или Linux Mint, вы можете установить R из стандартных репозиториев. Это предпочтительный способ. С помощью приведенной ниже команды вы можете скачать и установить R вместе со всеми зависимостями:

$ sudo apt-get install r-base

Если в вашей системе недоступна команда sudo, необходимо сначала авторизоваться в терминале как root, а затем установить R с помощью команды:

# apt-get install r-core

3.1.2. Redhat / Fedora / CentOS

Также, как и в дистрибутивах на базе Debian, в Redhat Linux и системах на его базе вы можете использовать команду yum. Инсталляция с помощью yum полностью автоматическая. С помощью приведенной ниже команды вы можете установить R вместе со всеми зависимостями:

$ sudo yum install R

3.2. Установка из исходного кода

Этот метод установки R может быть выбран в качестве последнего средства. Обычно программы устанавливают из исходного кода, если у вас имеются специфичные требования окружения, вы не можете установить ее из стандартных репозиториев, у вас нет привилегий root для установки новых программ в системе, или вы отчаянно нуждаетесь в последней версии R.
Чтобы установить R, сначала необходимо скачать исходный код. Он будет в виде архива, название которого зависит от версии, в нашем случае это R-2.15.2.tar.gz. Далее, необходимо распаковать архив с помощью команды:

$ tar xzf R-2.15.2.tar.gz

При этом будет создана новая директория с аналогичным названием. В нашем случае - R-2.15.2. Перейдите в эту директорию и выполните конфигурационный скрипт "configure":

$ cd R-2.15.2
$ ./configure

С помощью скрипта "configure" вы можете задать различные флаги для настройки компиляции в соответствии с вашим окружением. Если у вас нет каких-либо специфичных требований, вы можете запустить компиляцию с помощью команды:

$ make

При этом R будет скомпилирован в вашей домашней директории, откуда вы сможете его запустить. Следующий этап опциональный и требует привилегий суперпользователя. Если у вас есть права root, вы можете установить новую программу в системе с помощью команды:

$ make install

4. Запуск GNU R в Linux/Unix и пример его использования

Для приведенного ниже примера скачайте файл gnu-r-example.csv и сохраните его в своей домашней директории.

4.1. Запуск R

Давайте запустим R в вашей системе Linux/Unix. Перейдите в свою рабочую директорию с помощью команды cd и введите:

$ R

R version 2.15.1 (2012-06-22) -- "Roasted Marshmallows"
Copyright (C) 2012 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
Platform: x86_64-pc-linux-gnu (64-bit)
....

4.2. Простой пример использования R

Давайте рассмотрим простой пример использования R, включающий извлечение данных из файла с запятыми в качесте разделителя, построение временных рядов и создание диаграммы.

4.2.1. Извлечение данных из файла

Чтобы прочитать файл .csv, в R используется функция read.csv. Например:

> data<-read.csv('example.csv', header=F)

Эта функция считывает числовые данные, хранящиеся в файле gnu-r-example.csv, и помещает их в переменную "data". Теперь "data" - это матрица с одним столбцом. Поэтому, чтобы получить доступ к значениям первого столбца "data", мы пишем data[,1].

4.2.2. Построение графика

Чтобы построить график на базе значений, хранящихся в переменной "data[,1]", используется функция plot:

> plot(data[,1],type='l')

Опция 'type' задает тип рисуемого графика. type='l' означает тип графика - линия (точки соединяются линией).

график, построенный в R

На рисунке выше показан вывод команды plot. Кроме того, давайте посмотрим пример вывода гистограммы, соответствующей "data[,1]". Это можно сделать с помощью команды:

> hist(data[,1])

Вывод этой функции показан на рисунке ниже.

вывод функции hist

5. Заключение

Подводя итоги, можно сказать, что в данной статье вы инсталлировали R на платформе Linux\Unix и рассмотрели пример чтения данных из файла read.csv с построением графиков функций. Как вы могли видеть, установка R в Linux сводится к вводу одной команды, что не представляет никакой сложности. Это статья является первой в серии статей об R. Далее мы подробнее рассмотрим все аспекты использования этого языка.