R-советы: Экономим время и место на диске путем сжатия файла данных

No Comments

Начинания с R 2.10 можно читать данные прямо из текстового файла, сжатого с помощью GZIP или других программ для архивации файлов. Сжатие большого файла данных, безусловно, может сэкономить дисковое пространство: для файла, содержащего в основном цифры, 50% + уменьшение размера файла является типичным. Но не приведет ли экономия пространства к тому, что придется платить в скорости, когда дело дойдет до чтения файла с данными для анализа? Давайте попробуем это проверить.

Во-первых, сгенерируем матрицу размером 10 млн. строк и 1000 столбцов, заполненную случайными числами, и сохраним ее в отдельный файл: More

Хоп-Хей-NA-NA-NA, или работаем в R с пропущенными значениями

No Comments

Любой исследователь сталкивался с ситуацией, когда собранные данные будут неполными в силу ряда причин: пропуски вопросов респондентами, ошибки при вводе данных или их кодировке и т. п. Пропущенные данные в R обозначаются NA (not available – нет в наличии). Заметим, что недопустимые значения обозначаются как NaN (not a number – не является числом). Обозначение NA для пропущенных значений используется как текстовых, так числовых данных. Как проверить данные на наличие пропущенных значений? Предположим, что у нас имеется следующие данные:

name <- c(«Катя», «Дима», NA)

sex <- c(«female», «male», «female»)

age <- c(17, 21, NA)

iq < — c(128, 115, 100)

data <- data.frame(name, sex, age, iq)

Посмотрим на наш маленький набор данных: More

Новости сервиса онлайн-опросов VirtualExs: выгрузка массива ответов в SPSS

No Comments

Многие пользователи  сервера VirtualExS обрабатывают статистическую информацию своих маркетинговых исследований и опросов с помощью программы SPSS. Эта программа позволяет работать с различными типами данных, которые собираются в интернет-исследованиях наших пользователей автоматически. При этом, функция выгрузки собранных данных и ответов респондентов в SPSS была востребована, но решалась до недавнего времени с помощью простого CSV-массива и ручной настройки параметров переменных непосредственно в SPSS. В настоящий момент эта рутинная работа выполняется на VirtualExS автоматически для каждого исследования.

 

Во время выгрузки ответов респондентов из базы данных опроса, достаточно выбрать пункт «Файл синтаксиса SPS» и система сформирует два файла: More