ПО Linux: анализ данных

Дьюэлл, Т. Octave : Octave: труды в математике

Дьюэлл, Т. Octave [Текст] : Octave: труды в математике : [учебник] / Терри Дьюэлл (Terry Duell)  //  Linux Format. — 2014. — № 8 (186), авг.. — С. 88-91. — Веблиогр. "Ресурсы [код, документация, руководства, перечень команд Octave]": с. 89 (8 назв.). — (Академия кодинга) (Octave). — Прил.: "Скорая помощь. Чтобы добавить ярлык для графического интерфейса Octave, запустите команду octave —force-­gui и поставьте галочку Launch in Terminal (Запускать в терминале). После этого откройте home, затем Desktop, бросьте свой файл Octave в редактор и измените строку Icon= на Icon=/usr/share/octave/3.8.0/imagelib/octavelogo.png. Примечание: этот путь указан для Fedora.". — С. 89 ; "Скорая помощь. Хороший способ познакомиться с приемами написания кода на Octave — заглядывать в файлы .m. Они сохраняются в виде текстовых файлов, и, например, с помощью команды help fred можно узнать, где находится файл fred.m, и открыть его в текстовом редакторе.". — С. 90 ; "Скорая помощь. Все специализированные функции удобно хранить в одном месте, например, ~/Myoctave. Чтобы эти функции стали видимы в Octave, просто добавьте addpath (“~/Myoctave”) в начале сеанса Octave. Этот путь можно сохранить в файл ~/.octaverc, если добавить к команде addpath еще savepath." ; "Инструментарии Octave : [дополнительные пакеты для Octave — способы установки]. — С. 91. 
      Аннотация
      Свободная система для математических вычислений GNU Octave 3.8 — возможности решения численных задач, манипулирования данными и визуализации. Графический интерфейс Octave 3.8 и демонстрация его использования.
 

Балдин Е. Анализ данных с R : R: Поиск закономерностей

Балдин Е. Анализ данных с R [Текст] : R: Поиск закономерностей / Евгений Балдин, Владимир Лявшук, Сергей Петров  //  Linux Format. — 2010. — № 5 (131), май. — С. 68-71. — (Анализ данных с R. Учебник). 
     Аннотация
     Практикум по R завершают яркие примеры статистических исследований с помощью свободного инструментария. Первый пример поможет распределить на "хороших" и "плохих" преподавателей и проверит насколько верно анкетирование помогает оценивать преподавателей. Второй — прольет свет на практику руководителей Польской и Литовской провинций Ордена иезуитов (генералы Шарль де Ноэль (1682-1686) и Тирсо Гонсалес (1687-1705)) по принятию решений о назначении на должность настоятелей домов ордена. 
 

Балдин Е. Анализ данных с R : R: Размножаем реальность

Балдин Е. Анализ данных с R [Текст] : R: Размножаем реальность / Евгений Балдин, Сергей Петров  //  Linux Format. — 2010. — № 2 (128), февр.. — С. 68-71. — (Анализ данных с R. Учебник). — Прил.: "К вопросу о данных". — С. 68.
      Аннотация
      Многим кажется, что статистика — сухая теория, но Сергей Петров и Евгений Балдин показывают, что благодаря среде статистического анализа R от нее может быть практическая польза и решают задачу оценки эффективности персонифицированной адресной рассылки Гродненского госуниверситета имени Янки Купалы (ГрГУ им. Я. Купалы) потенциальным кандидатам к поступлению на физико-технический факультет ГрГУ. В статистике это задача для метода размножения выборок или бутстреп-анализа (bootstrap resampling technique, или bootsrapping). 

Балдин Е. М. Анализ данных : Продолжая традиции: ROOT

Балдин Е. М. Анализ данных [Текст] : Продолжая традиции: ROOT / Евгений Михайлович Балдин  //  Linux Format. — 2006. — № 9 (83), сент. — С. 91-95. — (Учебник. Анализ данных).
      Аннотация
      В 1994 году лидер команды PAW Рене Брюн (Rene Brun) запустил проект ROOT и на основе  PAW/CERNLIB был разработан свободный инструмент ROOT (http://root.cern.ch). 
      Подробный рассказ о среде анализа данных ROOT — команды, графический интерфейс, базовые объекты (перечислены только те объекты, которые могут пригодиться для представления данных — гистограммы, деревья), функции, интерпретатор С++ или CINT. 

 

Балдин Е. М. Анализ данных : Часть 2. PAW: приемы работы

Балдин Е. М. Анализ данных [Текст] : Часть 2. PAW: приемы работы / Евгений Михайлович Балдин  //  Linux Format. — 2006. — № 8 (82), авг. — С. 112-116. — (Учебник. Анализ данных).
      Аннотация
      Приемы работы с PAW на примере реального простейшего анализа, а также гистограммы, функции (демонстрируется на классическом фрактальном изображении имени Мандельброта). 

Балдин Е. М. Знакомство с PAW

Балдин Е. М. Знакомство с PAW [Текст] / Евгений Михайлович Балдин  //  Linux Format. — 2006. — № 7 (81), июль. — С. 100-103. — (Учебник. Анализ данных). — Веблиогр.: с. 103 (4 назв.).
      Аннотация
      Программное обеспечение анализа данных в системах под управлением Debian Linux.
      PAW или Physics Analysis Workstation (paw.web.cern.ch/paw/) – интерактивная программа анализа и графического представления результатов, с возможностью автоматизации посредством скриптов – введение, история, установка программы, объекты PAW (векторы, гистограммы, ntuple’ы и cut’ы), встроенный язык программирования FORTRAN, проблемы работы с PAW.  

Шипунов А. Анализ данных с R : Часть 4. Интеллектуальный анализ, или Data Mining

Шипунов А. Анализ данных с R [Текст] : Часть 4. Интеллектуальный анализ, или Data Mining / Алексей Шипунов, Евгений Балдин  //  Linux Format. — 2008. — № 12 (112), дек. — С. 74-77. — (Анализ данных с R. Учебник). 
      Аннотация 
      Под термином "data mining" с точки зрения R подразумеваются любые визуальные или аналитические методы, позволяющие "нащупать" структуру в большом объеме информации. Более традиционное название этих методов  — "многомерный анализ" или "многомерная статистика". 
      Что действительно удивительно в дата-майнинге — это данные, используемые для анализа. Для анализа используются — многомерные данные, то есть такие, которые можно представить в виде таблицы из нескольких колонок-переменных; данные большого объема (сотни, а то и тысячи строк и столбцов); переменные в данных них могут быть совершенно разных типов (качественные, балльные, счётные, непрерывные), причём даже непрерывные числовые переменные вполне могут не быть параметрическими. Пример таких данных — встроенные в R данные iris, позаимствованные из работы знаменитого математика и биолога Р. Фишера, которые описывают разнообразие нескольких признаков трёх видов ирисов. Эти данные состоят из 5 переменных (колонок), причём последняя колонка – это название вида.
      Тем не менее с многомерными данными R справляется с помощью графического анализа (пакеты RGL, scatterplot3d, lattice, ade4), ординации (упорядочение или классификация без обучения), классификации с обучением.

 

Коробейников А. Анализ данных с R : Часть 3. Графические интерфейсы

Коробейников А. Анализ данных с R [Текст] : Часть 3. Графические интерфейсы [обзор] / Антон Коробейников, Евгений Балдин  //  Linux Format. — 2008. — № 11 (111), нояб. — С. 88-91. — (Анализ данных с R. Учебник). — Содерж.: [О программах] : R Сommander [или Rcmdr (http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)]. — С. 88-89 ; RKWard [(rkward.sourceforge.net) — совмещение мощи R и простоты использования]. — С. 89 ;  JGR [Java GUI for R (http://jgr.markushelbig.org/JGR.html)]. — С. 89-90 ; SciViews-K [(www.sciviews.org/SciViews-K) – добавляет поддержку R свободному (MPL/GLP/LGPL) редактору Komodo Edit] ; Rattle [the R Analytical Tool To Learn Easily — Легкая в освоении среда анализа R (rattle.togaware.com) – предназначена для интеллектуального анализа данных (data mining) человеком]. — С. 90 ; PMG [(Poor Man’s GUI; wiener.math.csi.cuny.edu/pmg)] ; RPMG [(Really Poor Man’s GUI) не имеет домашней страницы и скачивается из CRAN: http://probability.ca/cran/web/packages/RPMG/index.html — с его помощью можно организовать интерактивное графическое R-окно для личного пользования] ; Rweb [(R Web Based Statistical Analysis; www.math.montana.edu/Rweb) — набор Perl-скриптов] ; Gnumeric [и его расширение RGnumeric (www.omegahat.org/RGnumeric) для вызова из Gnumeric любой функции R — представляет из себя скорее демонстрацию возможностей, нежели законченный продукт] ; Emacs [для имеющих навыки работы в Emacs, создана мода для GNU Emacs/XEmacs (специализированная интерактивная среда) ESS (ess.r-project.org), которая поддерживает не только систему статистического анализа R, но и другие диалекты языка S (S 3/4, S-PLUS 3/4/5/6/7), а так же SAS, XLispStat, Stata и BUGS]. — С. 91.
      Аннотация 
      Рациональные доводы в пользу интерфейса командной строки для статистического анализа данных в R. 
      Десять самых простых графических (но необязательно самых правильных) способов работы в R. 
      Отметим, что почти все уважающие себя текстовые редакторы или среды разработки поддерживают R в той или иной степени. Кроме упомянутого Emacs, к ним относится и Vim, и jEdit, и Bluefish, и SciTE. Даже Eclipse имеет соответствующий модуль (http://www.walware.de/goto/statet). 

 

Коробейников А. Анализ данных с R : Взаимосвязь случайных величин

      Коробейников А. Анализ данных с R [Текст] : Взаимосвязь случайных величин / Антон Коробейников, Евгений Балдин  //  Linux Format. — 2008. — № 10 (110), окт. — С. 88-91. — (Анализ данных с R. Учебник).  
      Аннотация 
      Коэффициент корреляции, таблицы сопряжённости и графическое представление данных.
      Что общего между фазой луны и работоспособностью Windows-сервера? Ничего, или… Антон Коробейников и Евгений Балдин дадут научно-обоснованный ответ на подобный вопрос. 

 

Коробейников А. Анализ данных с R : Работа с двумя переменными

Коробейников А. Анализ данных с R [Текст] : Работа с двумя переменными / Антон Коробейников, Евгений Балдин  //  Linux Format. — 2008. — № 9 (109), сент. — С. 96-99. — (Анализ данных с R. Учебник). 
      Аннотация 
      Одна из самых первых ступенек на пути понимания сути данных, которые собираются для познания природы абсолютно любых явлений — отличать нормальное распределения от "ненормального", но и сравнивать их друг с другом, которая реализуется в проверке гипотез нормальности распределения и однородности. 
      Проверка гипотез однородности: параметрические критерии проверки однородности выборок, которые предполагают, что выборка имеет нормальное распределение (двухвыборочный критерий Стьюдента равенства средних, двухвыборочный критерий Фишера равенства дисперсий), непараметрические критерии проверки однородности выборок (критерий Вилкоксона или критерий Манна–Уитни, непараметрические критерии сравнения масштаба). 
      Проверка гипотез нормальности распределения (критерий Лиллифорса как вариант известного классического критерия Колмогорова–Смирнова, критерии Крамера – фон Мизеса и Андерсона–Дарлинга, критерий Шапиро–Франсиа, критерий хи-квадрат Пирсона). 

 

Балдин Е. Анализ данных с R : Часть 4. Начала анализа

Балдин Е. Анализ данных с R [Текст] : Часть 4. Начала анализа / Евгений Балдин, Алексей Шипунов  //  Linux Format. — 2008. — № № 4 (104), апр.. — С. 92-96. — (Анализ данных с R. Учебник). — Прил.: "Примечание. Мы не будем останавливаться на том, что такое среднее и как именно вычисляется медиана. Желающие это выяснить могут обратиться за формулами к любому учебнику по статистике.". — С. 92.
      Аннотация
      Как обработать средствами R подготовленные и введенные в систему данные.

 

 

Балдин Е. Анализ данных с R : Часть 3. Типы данных в R и работа с ними

Балдин Е. Анализ данных с R [Текст] : Часть 3. Типы данных в R и работа с ними / Евгений Балдин, Алексей Шипунов  //  Linux Format. — 2008. — № 3 (103), март. — С. 86-91. — (Анализ данных с R. Учебник). 
      Аннотация
      Типы данных R: векторы, факторы, пропущенные или отсутствующие данные, матрицы, списки, таблицы данных. 
      Работа с данными в R: векторизованные вычисления. 

 

Балдин Е. Анализ данных с R : Часть 2. Данные и графики

Балдин Е. Анализ данных с R [Текст] : Часть 2. Данные и графики / Евгений Балдин, Алексей Шипунов  //  Linux Format. — 2008. — № 2 (102), февр.. — С. 90-94. — (Анализ данных с R. Учебник). 
      Аннотация
      Подготовка данных к работе – одна из самых больших проблем для новичка в R. Сама по себе обработка данных подробно описана в разных руководствах и пособиях, а вот информация, как добиться того, чтобы R прочитал приготовленные в другой программе данные, как правило, опускается. Почему – вполне очевидно: входные данные могут иметь слишком разный формат, чтобы написать по этому вопросу исчерпывающее и компактное руководство.
      Как подготавливать данные и строить по ним графики (типы графических команд, графические устройства, графические опции, правила графической системы R, интерактивность графики, сохранение графики и система автоматической генерации отчетов Sweave). 

 

Балдин Е. Анализ данных с R : Часть 1. Введение в R

Балдин Е. Анализ данных с R [Текст] : Часть 1. Введение в R [история, установка, первые шаги, скрипты, пакеты] / Евгений Балдин, Алексей Шипунов  //  Linux Format. — 2008. — № 1 (100-101), янв.. — С. 98-101. — (Введение в R. Учебник) (Анализ данных с R. Учебник). — Веблиогр.: с. 101 (7 назв.). 
      Аннотация
      R – язык программирования для статистической обработки данных и работы с графикой и в то же время – это свободная программная среда с открытым исходным кодом, развиваемая в рамках проекта GNU. 
      R — история, установка, первые шаги в использовании. 
      Скрипты и расширения — серьезнейшие преимущества R.