Парсинг web сайта
необходимо реализовать алгоритмический обход и парсинг (средствами JAVA) существующего web сайта:
- страница содержащая список продуктов - выявление всех возможных ссылок на продукт (ProductID)
- страница представления продукта (шаблонное оформление продукта = one server page) - формирование структурированного data set (product properties) заданной структуры
- формирование общего структурированного списка продуктов (product data set) в заданном техническом формате
парсинг может включать как парсинг визуального содержимого (raw server side html) так и dynamic JSON данных.
возможное количество продуктов ~ 1-3K
необходимые профеcсиональные навыки:
- Java development
- Web development
задача предусматривает исправление bug fixes (после проверки final data set quality)