Парсин сайта средствами PDI
Парсинг сайтов сегодня стал обязательным для многих информационных систем. Обычными задачами парсинга является извлечение цен конкурентов.
В PDI есть средства, которые помогают извлекать информацию с сайтов. В данном уроке разберемся, как извлечь информацию с сайта DNS по сервисным центрам. Для этого будем использовать следующие инструменты:
- livehttpheaders плагин для браузера, который позволяет просматривать заголовки.
- Со стороны PDI будем использовать следующие шаги:
- HTTP Client (умеет работать с куками).
- Modified Java Script Value (склеивание данных).
- Select values (удаление ненужных данных)
- Split field to rows (извлечение данных).
Более подробно в видео. (Загрузка/Download)
План видео (ссылка на youtube http://youtu.be/hsxB-Knk0Ic)
00:00 Теория.
01:46 Обзор плагина «livehttpheaders» для браузеров.
06:29 Обзор PDI инструментария для реализации задачи.
14:40 Обзор решения и пути увеличения скорости обработки.
Ссылки на материалы:
- Плагин livehttpheaders http://livehttpheaders.mozdev.org/
- Cleaning webpages with Pentaho Data Integration and JTidy http://rpbouman.blogspot.ru/2011/05/using-tidy-to-clean-webpages-with.html
- Подробности
- Опубликовано: 02 Август 2015
- Просмотров: 3211