Парсер сайтов

Гость20 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

10.07.2017

С заданной периодичностью необходимо парсить несколько сайтов, извлекая новую и обновляя ранее добытую информацию.

Варианты реализации:

“Скелет”, в который надо будет дописать классы парсеров, будет предоставлен на PHP-фреймворке Silex, с использованием библиотеки https://github.com/FriendsOfPHP/Goutte.
на Python с использованием PySpider (docs.pyspider.org)
Если удобен другой инструмент - готовы обсудить.

Контент на сайтах, который надо парсить:

доступен после авторизации
Иногда защищен CSRFToken
Иногда приходят фрагменты HTML

По каждому сайту будет предоставлена инструкция со скриншотами, обозначен каждый фрагмент, который необходимо спарсить. Информацию необходимо сохранить в СУБД (предпочтительно в PostgreSQL).

Какая информация должна быть извлечена:

Содержимое различных каталогов, поэлементно, с отслеживанием их изменений (хранить каждую извлеченную версию и анализировать изменения)
Текстовая информация в элементах каталогов: описание, цифры, гиперссылки, даты - около 15 полей
Файлы: картинки, архивы (без анализа/распознавания/парсинга, просто скачать)

Всего сайтов: 11

Примеры сайтов прикреплены (полноразмерные скриншоты будут предоставлены с инструкцией).

HTML PHP PostgreSQL Python