Система для Сканирования Сайтов

Игорь17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
08.09.2008

• Требуется создать систему для сканирования сайтов, нахождение требуемой

информации и ее представление в виде XML.

• Система должна сканировать сайты "магазины" и находить информацию о

товарах и ценах. HTML структура магазина не постоянна и может меняться от

магазина к магазину.

• По каждому товару требуется "опознать" его название/описание, цену и

ссылку на фотографию.

• Перед сканированием каждого магазина, возможен "ручной" процесс в

котором системе будут показаны несколько примеров страниц товаров, где

на странице находится название/описание товара, его цена и фотография.

• После этого система должна должна автоматически просканировать магазин

(начиная от главной страницы), выявить все страницы-товары (откинув при

этом все страницы которые не являются товарами - например о компании,

страница категорий товаров итд), и создать XML со списком всех товаров

(название, цена, фотография).

• Система должна позволять (или по крайней мере не исключать) возможность

параллельного запуска - когда сканируются одновременно несколько сайтов.

• Язык программирования и технология системы гибки.

• Web crawler желательно не разрабатывать а использовать готовый,

несколько примеров java open source crawlers - http://java-source.net/open-

source/crawlers

• Заказчик имеет обширные технологические знания и есть возможность

обсудить разные подходы к реализации и интеграции системы.