Шипунов А. Анализ данных с R [Текст] : Часть 4. Интеллектуальный анализ, или Data Mining / Алексей Шипунов, Евгений Балдин // Linux Format. — 2008. — № 12 (112), дек. — С. 74-77. — (Анализ данных с R. Учебник).
Аннотация
Под термином "data mining" с точки зрения R подразумеваются любые визуальные или аналитические методы, позволяющие "нащупать" структуру в большом объеме информации. Более традиционное название этих методов — "многомерный анализ" или "многомерная статистика".
Что действительно удивительно в дата-майнинге — это данные, используемые для анализа. Для анализа используются — многомерные данные, то есть такие, которые можно представить в виде таблицы из нескольких колонок-переменных; данные большого объема (сотни, а то и тысячи строк и столбцов); переменные в данных них могут быть совершенно разных типов (качественные, балльные, счётные, непрерывные), причём даже непрерывные числовые переменные вполне могут не быть параметрическими. Пример таких данных — встроенные в R данные iris, позаимствованные из работы знаменитого математика и биолога Р. Фишера, которые описывают разнообразие нескольких признаков трёх видов ирисов. Эти данные состоят из 5 переменных (колонок), причём последняя колонка – это название вида.
Тем не менее с многомерными данными R справляется с помощью графического анализа (пакеты RGL, scatterplot3d, lattice, ade4), ординации (упорядочение или классификация без обучения), классификации с обучением.