Обзор системы Pentaho CE
Развернем в качестве примера бесплатную систему BI Pentaho CE. Основными мотивами выбора этой системы стали:
- Бесплатная система аналитики, которую можно развернуть на любом предприятии.
- Создание OLAP кубов.
- Работа с многими БД.
- Кроссплатформенность (приложение написано на языке Java и предполагает установку как на windows, так и на свободные ОС Linux).
- Поддержка ИАД.
Разработаем следующий проект (Финальная версия материалов/The final version of the materials)
.
План видео /Video plan (ссылка на youtub http://youtu.be/N9_qg1W34nc)
00:00 О проекте / About project
03:47 Установка Foodmart / Installation of the foodmart database
05:16 Создание БД pentaho / Creating of the pentaho database
07:57 Запуск ELT процесса / Running ELT process
12:05 Публикация OLAP куба на Pentaho 4.8 / Publication of the OLAP cube into Pentaho 4.8
17:27 Проверка OLAP куба / Checking the OLAP cube
18:28 Публикация OLAP куба на Pentaho 5.1 / Publication of the OLAP cube into Pentaho 5.1
О Pentaho CE
Система Business Inteligence (Система бизнес аналитики) Pentaho CE - это свободная система аналитики, которая включает в себя:
- ETL сервер Pentaho Data Integration (Kettle).
- Report Desiner - продвинутое средство для подготовки отчетов.
- Design Studio - надстройка над Eclipce.
- Сервер аналитики (OLAP Сервер) Mondrian.
- Aggregation Designer - графическая утилита, позволяющая настроить сервер OLAP более эффективно.
- Metadata Editor - графическая утилита, позволяющая проектировать схемы БД.
- Schema WorkBench - графическая утилита для проектирования OLAP кубов.
- Поддержка Data Mining (проект weka).
Для загрузки проектов можно воспользоваться http://community.pentaho.com/sourceforge/ или Getting Started Downloads (лучше всего искать в современных поисковых системах). Каждую программу надо скачивать отдельно.
Система написана на JAVA. Система развертывания подразумевает явную или неявную установку Tomcat (сервер по обработки Java запросов). Вообще, упоминание о Tomcat позволяет понять саму архитектуру системы аналитики и его настройки. Обычно это упускается во всяких справочных материалах. Запуск серверов осуществляется отдельной командой, которая запускает сервера аналитики и прочие.
Требования к программному и аппаратному обеспечению:
Системные требования по развертыванию не нуждаются в значительных вычислительных и программных ресурсах. Минимальные аппаратные требования: двухъядерный процессор, 2 гигабайта оперативной памяти и такой же объем дискового пространства. Программное обеспечение: любая современная ОС (Linux, MS Win и другие), браузер для работы с системой и JDK.
Приведем небольшое сравнение Pentaho CE с Palo
Параметр |
Pentaho CE |
Palo |
OLAP |
+ |
+ |
ИАД |
+ |
- |
Ускоренная обработка GPU (CUDA) |
- |
+ |
Язык реализации |
Java |
Java |
Поддерживаемые СУБД |
Все (JDBC) |
Все (JDBC) |
Интеграция с Excel |
Поддерживается экспорт и импорт |
Поддерживается работа из Excel с кубами; Экспорт и импорт |
Русскоязычный форум |
- |
+ |
Схема развертывания у двух проектов одинаковая, а поддерживаемые СУБД определяются установкой необходимых драйверов. Есть драйвера для MS Access, что для малых аналитических систем может стать главным преимуществом.
Схема развертывания выглядит следующим образом:
Cхема представляет собой гибидное хранилище. Более подробно можно прочитать в разделе (Организация хранилища)
План развертывания Pentaho
Если быть до конца идейным сторонником всего бесплатного, то можно развернуть все системы и на Linux. Однако мы выберем следующий вариант развертывания. Пусть сама база хранится на удаленной машине, которая работает под управлением Linux (это сделано для демонстрации возможности удаленного управления работы с БД), а сервер аналитики будет развернут на другой машине. БД может сопровождать и отдел IT, что ему принципиально ближе, тогда как сервер аналитики может быть в управлении самих аналитиков, так как им более интересно иметь средства анализа всегда под рукой. Не будем судить о скорости работы в данный момент. Пока примерно изложим этапы развертывания:
- Mysql на Linux.
- Сам сервер аналитики разворачиваем на win 7.
- Установка соединения с сервером БД.
- Импортирование готовых аналитических БД (будем использовать БД Foodmart для демонстрации принципов работы с аналитическими системами).
Цели и задачи, которые планируем достичь при развертывании системы:
- Изучить работу с удаленными БД.
- Произвести настройку программ (в данном случае серверов аналитики).
- Определить схему развертывания систем аналитики на целевой машине.
- Сделать несколько типовых отчетов аналитики.
- Подробности
- Опубликовано: 21 Май 2013
- Просмотров: 12553