Краткий обзор

Рост количества влияющих факторов привел к изменению подхода к анализу данных. Анализ данных стал одной из самых трудных задач, поэтому были приложены значительные усилия для достижения некоторого прорыва в разработке методов и инструментария, которые позволили упростить анализ многомерных данных. Задачи анализа выделились в новый класс, решение которых потребовало объединение подходов хранения, визуализации данных, применения методов анализа данных. Объединение подходов определило общее направление аналитических информационных технологий.

В аналитических информационных технологиях сформировался ряд идей:

  • Хранилище данных (Data Warehouse) – идея концентрации данных из доступных источников с целью возможности их анализа.
  • Оперативная аналитическая обработка данных (On-Line Analytical Processing, OLAP)
  • Интеллектуальный анализ данных – ИАД (Data Mining, DM)

Хранилище данных (Data Warehouse) - это объединение данных из разных источников в одном пространстве  с целью формирования единого и непротиворечивого взгляда на исследуемый объект.

Функционирование хранилища данных происходит по следующему сценарию:

  1. Сбор данных из разных источников.
  2. Агрегация данных.
  3. Сохранение данных.
  4. Поддержание хронологии данных.

Работа с хранилищем данных требует очень много вычислительных ресурсов, поэтому ввели термин витрина данных (Data Mart). Витрина данных (Data Mart) - это подмножество хранилища, относящегося к определенным аспектам деятельности. Главная идея витрины - это экономия вычислительных ресурсов и возможность применения менее мощных вычислительных машин. Более подробно изучить идеи хранилищ данных и требования, предъявляемые к их построению, можно почитать по этой ссылке (Способы аналитической обработки данных для поддержки принятия решений ).

Оперативная аналитическая обработка данных (On-Line Analytical Processing, OLAP) представляет собой многомерное представление данных. Термин OLAP был введен Е. Ф. Коддом в 1993 году. OLAP – технология обработки данных, заключающаяся в подготовке суммарной агрегированной информации на основе больших массивов данных, структурированных по многомерному принципу. Сводные таблицы Excel представляют собой упрощенное представление OLAP технологии. Для многомерного представления данных требуются специальные OLAP серверы, способные обрабатывать большие объемы информации.

Основная цель OLAP – это оперативное представление и визуализация многомерных данных для последующего анализа. 

OLAP разделяются по способу хранения данных. Выделяют следующие разновидности: MOLAP, ROLAP и HOLAP. В MOLAP данные хранятся в виде многомерных массивов данных, тогда как ROLAP данные хранятся в реляционных БД. HOLAP является гибридом MOLAP и ROLAP. Пока нас не интересуют различия данных технологий, главное для нас то, что они реализуют OLAP. Отличия будут интересны тогда, когда требуется проектировать внедрение OLAP на предприятии.

Интеллектуальный анализ данных (Data Mining) представляет собой процесс принятия решений, основанный на поиске скрытых закономерностей. Основными задачами ИАД  является комплексный системный анализ оперативной ситуации, краткосрочное и долгосрочное прогнозирование ситуации и выработка вариантов оптимизации решений. Анализ включает в себя две (или три) стадии:

  1. Выявление закономерностей (свободный поиск).
  2. Использование выявленных закономерностей для предсказания неизвестных значений.
  3. Анализ исключений (необязательно).

При выявлении закономерностей все методы условно разделяют на две большие группы: статистические методы и методы компьютерной информатики.

Статистические методы  Методы компьютерной математики 
  • Дескриптивный анализ и описание исходных данных;
  • Анализ связей (корреляционный, регрессионный, факторный, дисперсионный анализ);
  • Многомерный статистический анализ;
  • Анализ временных рядов.
  • Нейронные сети (распознавание, кластеризация, прогноз);
  • Эволюционное программирование;
  • Генетические алгоритмы;
  • Ассоциативная память;
  • Нечеткая логика;
  • Деревья решений;
  • Системы обработки экспертных знаний.

Схема алгоритм

Этапы анализа данных ИАД

Каждый из пунктов требует привлечения разного рода специалистов от знающих БД, заканчивая специалистами разрабатывающими отчеты и презентации для лиц, принимающих решения. Внедрение систем анализа данных является достаточно трудной и дорогостоящей задачей, которая требует привлечение значительного количества специалистов и финансовых ресурсов предприятия.

Перед внедрением нужно ответить на следующий ряд вопросов:

  1. Что внедрять?
  2. Как внедрять?
  3. Кем внедрять?
  4. Сколько внедрять?
  5. Сколько финансов потребуется?