Граббер и парсер сайта поставщика
Необходимо создать граббер и парсер закрытой части сайта поставщика компьютерного оборудования.
В закрытой части публикуется информация о:
- статусе размещенных заказов
- отгрузках по заказам, т.е. об инвойсах, отгрузочных документах и т.п.
- статусе заявок на получение выплат (скидок, бонусов, премий)
- выставленных поставщиком документах на выплату
Примерный объем работ:
- 3 "точки входа" (начальных страницы)
- 4-5 видов документов (каждый документ имеет заголовок и строки), т.е. результаты парсинга должны сохранаться в 8-10 таблиц
- результаты парсинга должны сохраняться в БД MS SQL
- граббер должен работать постоянно, запускаясь через определенный интервал времени
- граббер сам определяет объем своей работы, т.е. сначала получает с сайта список документов для граббинга (за диапазон дат), затем его обрабатывает
- должна быть возможность запуска граббера/парсера "вручную", с указанием точного номера документа для скачивания и/или парсинга
Подробности задачи – по запросу.
P.S. Эта задача уже однажды была реализована на C#, но из-за смены дизайна сайта поставщика и, по-видимому, внутренних механизмов его работы, находиться в неработоспособном состоянии.
К сожалению, разработчик с тех пор сменил род занятий и привлечь его не удасться.
Если кому-то это поможет, исходные коды доступны. Вариант с "реанимацией" тоже рассматривается, но, честно говоря, я в него не верю.