Система для Сканирования Сайтов
• Требуется создать систему для сканирования сайтов, нахождение требуемой
информации и ее представление в виде XML.
• Система должна сканировать сайты "магазины" и находить информацию о
товарах и ценах. HTML структура магазина не постоянна и может меняться от
магазина к магазину.
• По каждому товару требуется "опознать" его название/описание, цену и
ссылку на фотографию.
• Перед сканированием каждого магазина, возможен "ручной" процесс в
котором системе будут показаны несколько примеров страниц товаров, где
на странице находится название/описание товара, его цена и фотография.
• После этого система должна должна автоматически просканировать магазин
(начиная от главной страницы), выявить все страницы-товары (откинув при
этом все страницы которые не являются товарами - например о компании,
страница категорий товаров итд), и создать XML со списком всех товаров
(название, цена, фотография).
• Система должна позволять (или по крайней мере не исключать) возможность
параллельного запуска - когда сканируются одновременно несколько сайтов.
• Язык программирования и технология системы гибки.
• Web crawler желательно не разрабатывать а использовать готовый,
несколько примеров java open source crawlers - http://java-source.net/open-
source/crawlers
• Заказчик имеет обширные технологические знания и есть возможность
обсудить разные подходы к реализации и интеграции системы.