Обзор системы Pentaho CE

Развернем в качестве примера бесплатную систему BI Pentaho CE. Основными мотивами выбора этой системы стали:

  1. Бесплатная система аналитики, которую можно развернуть на любом предприятии.
  2. Создание OLAP кубов.
  3. Работа с многими БД.
  4. Кроссплатформенность (приложение написано на языке Java и предполагает установку как на windows, так и на свободные ОС Linux).
  5. Поддержка ИАД.

Разработаем следующий проект   (Финальная версия материалов/The final version of the materials)

.

План видео /Video plan (ссылка на youtub http://youtu.be/N9_qg1W34nc)
00:00 О проекте / About project
03:47 Установка Foodmart / Installation of the foodmart database
05:16 Создание БД pentaho / Creating of the pentaho database
07:57 Запуск ELT процесса / Running ELT process
12:05 Публикация OLAP куба на Pentaho 4.8 / Publication of the OLAP cube into Pentaho 4.8
17:27 Проверка OLAP куба / Checking the OLAP cube
18:28 Публикация OLAP куба на Pentaho 5.1 / Publication of the OLAP cube into Pentaho 5.1

О Pentaho CE

Система Business Inteligence (Система бизнес аналитики) Pentaho CE - это свободная система аналитики, которая включает в себя:

  1. ETL сервер Pentaho Data Integration (Kettle).
  2. Report Desiner - продвинутое средство для подготовки отчетов.
  3. Design Studio - надстройка над Eclipce.
  4. Сервер аналитики (OLAP Сервер) Mondrian.
  5. Aggregation Designer - графическая утилита, позволяющая настроить сервер OLAP более эффективно.
  6. Metadata Editor - графическая утилита, позволяющая проектировать схемы БД.
  7. Schema WorkBench  - графическая утилита для проектирования OLAP кубов.
  8. Поддержка Data Mining (проект weka).

Для загрузки проектов можно воспользоваться http://community.pentaho.com/sourceforge/ или Getting Started Downloads (лучше всего искать в современных поисковых системах). Каждую программу надо скачивать отдельно.

Система написана на JAVA. Система развертывания подразумевает явную или неявную установку Tomcat (сервер по обработки Java запросов). Вообще, упоминание о Tomcat позволяет понять саму архитектуру системы аналитики и его настройки. Обычно это упускается во всяких справочных материалах. Запуск серверов осуществляется отдельной командой, которая запускает сервера аналитики и прочие.

Требования к программному и аппаратному обеспечению:

Системные требования по развертыванию не нуждаются в значительных вычислительных и программных ресурсах. Минимальные аппаратные требования: двухъядерный процессор, 2 гигабайта оперативной памяти и такой же объем дискового пространства. Программное обеспечение: любая современная ОС (Linux, MS Win и другие), браузер для работы с системой и JDK.

Приведем небольшое сравнение Pentaho CE с Palo

Параметр

Pentaho CE

Palo

OLAP

+

+

ИАД

+

-

Ускоренная обработка GPU (CUDA)

-

+

Язык реализации

Java

Java

Поддерживаемые СУБД

Все (JDBC)

Все (JDBC)

Интеграция с Excel

Поддерживается экспорт и импорт

Поддерживается работа из Excel с кубами; 

Экспорт и импорт

Русскоязычный форум

-

+

Схема развертывания у двух проектов одинаковая, а поддерживаемые СУБД определяются установкой необходимых драйверов. Есть драйвера для MS Access, что для малых аналитических систем может стать главным преимуществом.

Схема развертывания выглядит следующим образом:

Pentaho and Palo server shema

Cхема представляет собой гибидное хранилище. Более подробно можно прочитать в разделе (Организация хранилища)

План развертывания Pentaho

Если быть до конца идейным сторонником всего бесплатного, то можно развернуть все системы и на Linux. Однако мы выберем следующий вариант развертывания. Пусть сама база хранится на удаленной машине, которая работает под управлением Linux (это сделано для демонстрации возможности удаленного управления работы с БД), а сервер аналитики будет развернут на другой машине. БД может сопровождать и отдел IT, что ему принципиально ближе, тогда как сервер аналитики может быть в управлении самих аналитиков, так как им более интересно иметь средства анализа всегда под рукой. Не будем судить о скорости работы в данный момент. Пока примерно изложим этапы развертывания:

  1. Mysql на Linux.
  2. Сам сервер аналитики разворачиваем на win 7.
  3. Установка соединения с сервером БД.
  4. Импортирование готовых аналитических БД (будем использовать БД Foodmart для демонстрации принципов работы с аналитическими системами).

Цели и задачи, которые планируем достичь при развертывании системы:

  1. Изучить работу с удаленными БД.
  2. Произвести настройку программ (в данном случае серверов аналитики).
  3. Определить схему развертывания систем аналитики на целевой машине.
  4. Сделать несколько типовых отчетов аналитики.