Парсер сайтов
Гость19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
10.07.2017
С заданной периодичностью необходимо парсить несколько сайтов, извлекая новую и обновляя ранее добытую информацию.
Варианты реализации:
- “Скелет”, в который надо будет дописать классы парсеров, будет предоставлен на PHP-фреймворке Silex, с использованием библиотеки https://github.com/FriendsOfPHP/Goutte.
- на Python с использованием PySpider (docs.pyspider.org)
- Если удобен другой инструмент - готовы обсудить.
- доступен после авторизации
- Иногда защищен CSRFToken
- Иногда приходят фрагменты HTML
Какая информация должна быть извлечена:
- Содержимое различных каталогов, поэлементно, с отслеживанием их изменений (хранить каждую извлеченную версию и анализировать изменения)
- Текстовая информация в элементах каталогов: описание, цифры, гиперссылки, даты - около 15 полей
- Файлы: картинки, архивы (без анализа/распознавания/парсинга, просто скачать)
Примеры сайтов прикреплены (полноразмерные скриншоты будут предоставлены с инструкцией).