В этом уроке показаны возможности развертывания WH средствами PDI (Pentaho Data Integration). Сама схема WH была спроектирована в предыдущем уроке. (Загрузка/Download)
Рекомендую просматривать видео на Youtube (ссылка http://youtu.be/JBARKsf9xoc)
План видео /Video plan (ссылка на youtub http://youtu.be/JBARKsf9xoc)
При первичном заполнении таблиц измерений я столкнулся со странной особенностью: при создании первой записи с id_…. = 0 создавалась запись с id_… = 1. Очень неприятная неожиданность. Один из путей решения данной проблемы разберем в следующем видео.
Для этого были следующие причины:
Развиваем мысль дальше. Для чего нужно первичное заполнение? Идея состоит в том, что при объединении таблиц измерений с таблицей фактов использовали inner join или where. Уберем из рассмотрения left и right, потому что при их использовании не всегда можно быстро построить правильный запрос. Left и right оставим для специальных исследований. Для того, чтобы работать с inner join или where надо ввести строку, которая является значением по умолчанию. Это всего лишь первый шаг. Второй шаг сделаем при добавлении данных в таблицу фактов. Будем заменять пустые значения в таблице фактов на значение по умолчанию. Эти два шага и обеспечивают необходимые условия для объединения.
Если не сделать эти два шага, то при построении запросов мы можем столкнуться с выпадением данных из запросов. Например, если в таблице фактов есть пустое значение внешнего ключа, то при объединении с таблицей измерений эта строка выпадет из результата. Аналогичные рекомендации даются в руководствах по проектированию WH.
WITH date_series AS ( SELECT DATE(GENERATE_SERIES(DATE '2012-01-01', DATE '2012-01-10','1 day')) AS date ) SELECT date , EXTRACT(DAY FROM date) AS day , EXTRACT(MONTH FROM date) AS month , EXTRACT(QUARTER FROM date) AS quarter , EXTRACT(YEAR FROM date) AS year , EXTRACT(WEEK FROM date) AS week FROM date_series;
1 января 2012 года - это 52 неделя. Для меня это неприемлемо.

Для демонстрации работы PDI процесса обновления таблицы измерений.
Для того, чтобы показать вам возможные ошибки при генерации измерений времени, в том числе особенности хранения формата даты в Excel. Показать ошибки очень важно. В каждом видео я стараюсь их допускать и показываю пути их исправления.
Ну вот и все.