Модифицированная BCG матрица и средства Data Mining

Цель данного урока - дать пользователю понимания построения кластеров. Я не очень буду стараться описывать математическим языком постановку задачи и писать сложные формулы, так как есть уже написанные на этот случай интересные и понятные статьи.

Моя цель – "практика на примерах", применение алгоритмов кластеризации для решения задач обычных пользователей. Многие могут сказать, что знание формул - это важно, но когда имеешь дело с аналитическими системами, они (аналитические системы) предлагают уже готовые алгоритмы с регулировкой параметров. Остается проблема в правильном применении данных алгоритмов. Самостоятельно писать такие алгоритмы довольно сложно, да и требует применения специальных знаний.

Пример продолжает мысль урока "ABC и XYZ анализ, модифицированная BCG матрица и их расчет".

Приятного просмотра! (Загрузка/Download)

 

Поехали! Кластеризация – это выделение множества объектов по сходным параметрам. Теперь возникает вопрос, как разбить множество на кластеры. Для этого придется ответить на два вопроса:

  1. На сколько групп разбить множество.
  2. Как определить вхождения группы во множество.

Начнем со второго пункта. Каждому из нас знакомо понятие далеко и близко. Как описать это по отношению к кластерам? Для этого вводятся понятие меры. Например, выделяют меру как расстояния между объектами (допустим между центром кластера до точки, которая не относится пока ни к одному из кластеров). Из школьной программы практически всем известно понятие “Евклидово расстояние” - это расстояние между двумя точками. В литературе встречаются следующие меры расстояний: Евклидово, Махолобиса и Хэмпинга. Объект будет относится к кластеру, если значение меры (расстояние) до кластера будет минимальным.

Группы или кластеры могут задаваться на этапе постановки задачи или автоматически. В первом случае - все просто (сказано разбить на 4 кластера, разбиваем). В другом случае, как определить количество кластеров? Это довольно непростой вопрос. Для таких случаев применяются специальные критерии оптимальности разбиения. (Пока это нас не интересует).

Для нашего примера количество кластеров наперед задано и равно 4 (по группам BCG). Используем алгоритм кластеризации k-средних.

Выводы

На видео довольно наглядно было продемонстрировано, что для модифицированной BCG матрицы разбиение на кластеры (с использованием алгоритмов кластеризации) является не корректным. Кластеризация лишь привносит дополнительную информацию в модифицированною BCG матрицу.

Ну вот и все, что хотелось написать для урока. Осталось пару слов написать про Knime – свободное программное обеспечение, которое предоставляет доступ к алгоритмам Data Mining.

Ссылки на материалы:

  1. Чубукова И. А. Data Mining. Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний - 2-е изд., испр. - М.: 2008 (ссылка на загрузку книги http://lnfm1.sai.msu.ru/~rastor/Books/Chubukova-Data_Mining.pdf) или можно найти на сайте http://bug.kpi.ua/stud/work/RGR/DATAMINING/main.html
  2. СОВРЕМЕННЫЕ ТЕНДЕНЦИИ В КЛАСТЕРНОМ АНАЛИЗЕ В.Б. Бериков, Г.С. Лбов Институт математики им. С.Л. Соболева СО РАН.
  3. Кластерный анализ (wiki)
  4. Обзор алгоритмов кластеризации данных http://habrahabr.ru/post/101338/
  5. Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007.

PS. Можно пройти курс Чубуковой И.А. в Национальном Открытом Университете «ИНТУИТ». Название курса - Data Mining