Проверка текстовых данных на ошибки в R

No Comments

Тем, кто работает с текстовыми данными, будет интересен новый пакет hunspell, позволяющий выполнять проверку на наличие ошибок в написании слов. По сути, этот пакет является R-интерфейсом к известному движку Hunspell, на основе которого работает проверка орфографии в LibreOffice, OpenOffice, Mozilla Firefox, Google Chrome, Mac OS X, InDesign и др. программном обеспечении. https://www.opencpu.org/posts/hunspell-release/

Пример использования (см. также https://beta.rstudioconnect.com/psych/spell/):

More

R-советы: Экономим время и место на диске путем сжатия файла данных

No Comments

Начинания с R 2.10 можно читать данные прямо из текстового файла, сжатого с помощью GZIP или других программ для архивации файлов. Сжатие большого файла данных, безусловно, может сэкономить дисковое пространство: для файла, содержащего в основном цифры, 50% + уменьшение размера файла является типичным. Но не приведет ли экономия пространства к тому, что придется платить в скорости, когда дело дойдет до чтения файла с данными для анализа? Давайте попробуем это проверить.

Во-первых, сгенерируем матрицу размером 10 млн. строк и 1000 столбцов, заполненную случайными числами, и сохраним ее в отдельный файл: More

Комментируем объекты в R

No Comments

В R есть замечательная функция сomment(), которая позволяет запросить или установить комментарий для объекта. Как правило, комментарий полезно установить для набора данных.

Проверим, есть ли комментарий у объекта. Запрос делается так:
> comment(data)
NULL

У объекта data отсутствует такой атрибут, как комментарий.
Установим комментарий:
> comment(data) <- «Мои данные для очень важного научного открытия!»

Запросим вывод комментария:
> comment(data)
[1] «Мои данные для очень важного научного открытия!»

Хоп-Хей-NA-NA-NA, или работаем в R с пропущенными значениями

No Comments

Любой исследователь сталкивался с ситуацией, когда собранные данные будут неполными в силу ряда причин: пропуски вопросов респондентами, ошибки при вводе данных или их кодировке и т. п. Пропущенные данные в R обозначаются NA (not available – нет в наличии). Заметим, что недопустимые значения обозначаются как NaN (not a number – не является числом). Обозначение NA для пропущенных значений используется как текстовых, так числовых данных. Как проверить данные на наличие пропущенных значений? Предположим, что у нас имеется следующие данные:

name <- c(«Катя», «Дима», NA)

sex <- c(«female», «male», «female»)

age <- c(17, 21, NA)

iq < — c(128, 115, 100)

data <- data.frame(name, sex, age, iq)

Посмотрим на наш маленький набор данных: More

RedshiftGUI для здоровья ваших глаз

3 Comments

Я достаточно много времени провожу за компьютером, который для меня является средством заработка или «окном в мир», поэтому для меня важно заботиться о своем здоровье, поскольку чтение с экрана очень сильно напрягает мышцы глаз. Глаза испытывают очень большое напряжение. Это особенно критично, так как часть моего рабочего времени приходится на ночное.

Основные настройки программы RedshiftGUI

More

R-Fiddle — среда R у вас в браузере или на сайте

No Comments

В стадии бета-тестирования стартовал новый проект R-Fiddle, предоставляющий вам свободную и мощную онлайн среду для того, чтобы писать, редактировать и делиться R-скриптами прямо в браузере! (сохранить результаты работы, получать комментарии, делиться кодом в социальных сетях или на сайте). Есть возможность подключения пакетов. Все это доступно без какой-либо регистрации. Больше всего мне нравится опция встраивания кода прямо к себе в блог (нажмите «Activate Console», затем «Run»):

Функция транслитерации текста в R

No Comments

В сообществе r_statistics обсуждался вопрос транслитерации текста в R. Такое решение было предложено мной:

Older Entries