Вот настало время повести итог “Open source BI” альтернативе в лице “Pentaho СЕ”, “SQL Power Architect“, “PDI”, “Schema Workbench” и одной из СУБД Mysql и PostgreSQL
Предлагаю вам к просмотру видео. (Финальная версия материалов/The final version of the materials)
План видео (ссылка на youtub http://youtu.be/LQHtIuKrtp4)
01:38 Краткий разбор проекта.
11:39 Обзор используемого ПО.
21:15 Безопасность проекта.
23:05 Резюме.
Предлагаю рассмотреть на примере, как можно имея таблицу фактов сделать два кубика и объединить их в схеме. Все материалы, которые необходимы качаем на этой странице.
В уроке используем связку Pentaho CE 4, PDI 4.8, SQL Power Architect, “Schema Workbench” и PostgreSQL.
В принципе можете увеличить саму таблицу фактов и проверит как кубики вертятся. Однако стоит обратить внимание на работу элемента Dimension lookup/update и на параметр “Commit size”. Может произойти ситуация, когда “Dimension lookup/update” еще не обновит измерение, а в таблицу фактов будет происходить вставка. При этом будет нарушены ограничения внешних ключей.
И так основное блюдо готовилось очень долго и представляет из себя серию материалов по использованию программ. В качестве БД использую Mysql.
Кратко разбираем установку и настройку БД Foodmart, которую в дальнейшем объявим OLTP системой. Ссылка тут.
Установка и настройка основных рабочих инструментов Pentaho CE 4, PDI 4.8. Ссылка тут.
Начинаем с разработки ER схемы БД. Используем SQL Power Architect. Ссылка на материалы тут и обзор. Особенности:
При проектировании постарался уйти от схемы снежинка к схеме звезда, хотя Mondrian может работать и обеими схемами.
Схемы БД делает возможным (однако на этих данных применить алгоритмы не получится, так как OLTP СУБД не содержала ключ транзакции):
Рекомендую так делать по следующим причинам:
Основная идея первичного заполнения это уйти от объединения left и right. Это первый шаг. И вторая цель это обеспечить работу элемента “Dimension lookup/update” (который требует от СУБД наличие ключа со значением “0”).
Ну вот и настал звездный час PDI. (ссылка)
Замещение NULL значений на значения по умолчанию - второй и заключительный шаг от left и right.
Параметризация запросов и контрольное измерение позволяют автоматизировать загрузку данных без участия человека. В нашей компании такой процесс уже крутится с ноября 2013 года и пока все без ошибок.
Тестирование никто не отменял. Скрипты для проверки и видео тут.
При проектировании БД забыл добавить индекс к контрольному измерению. Это приводило к плохим результатам быстродействия ETL процесса. Вот этим занялись ссылка тут.
Будем разрабатывать куб, который будем просматривать в “Saiku Analytics”. Особенности урока:
Все (схема, видео) располагаются по следующей ссылке.
Как и изначально и ожидалось, что “Saiku Analytics” проиграет Excel по возможностям визуализации. Основные причины:
В целом для бесплатной альтернативы очень даже достойно. Самое главное неудобство отсутствие литературы и форумов.
PDI отличный инструмент, который могу со смелостью порекомендовать для ваших проектов:
Плюсы:
Минусы:
Неплохой продукт, но хотелось бы большего.
Плюсы:
Вроде бы все не плохо, но есть проблемы:
Поддержку полуаддитивных мер обещают в Mondrian 4.0
Ну очень современный и дружелюбный интерфейс :).
Плюсы:
Минусы:
Замены этой утилиты не вижу. Пока нет аналога поддерживающих функционал Schema Workbench.
Плюсы:
Минусы:
В целом довольно интересная получилась для меня четверка (Pentaho CE 4 или 5, PDI 4.8, SQL Power Architect, “Schema Workbench” ) и один из вратарей (Mysql или PostgreSQL). Я больше концентрируюсь на решении аналитических задач и проведением исследований. Очень не хватает бесплатной интеграции с Excel.
В целом проект соответствует заголовку сообщению, бесплатная альтернатива. Вы платите только своим временем. Для средних компаний самое то, особенно когда стоимость бизнеса равна стоимости BI решения.
Проблемами безопастности данных не планировал заниматься в этом проекте, так как мне более интересно именно работать с аналитикой.
Пароли, которые используются в системе лежат в скрипте biserver-ce\data\hsqldb\hibernate.script
Подключение к БД hsqldb происходит login “SA” pas ‘’ (пустой пароль).
Вопрос к проектировки куба http://www.sql.ru/forum/1090575/vopros-k-proektirovki-kuba?hl=%f7%e5%ea%e8
Ключ для дате-димешена: интегер, смарт или дату? http://www.sql.ru/forum/1088555/kluch-dlya-date-dimeshena-integer-smart-ili-datu
Настройка безопасного соединения с Mysql. https://anonymousbi.wordpress.com/2013/12/15/pentaho-bi-server-5-0-1ce-mysql-installation-guide/