Парсер сайтов

Гость19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
10.07.2017

С заданной периодичностью необходимо парсить несколько сайтов, извлекая новую и обновляя ранее добытую информацию.

Варианты реализации:

  • “Скелет”, в который надо будет дописать классы парсеров, будет предоставлен на PHP-фреймворке Silex, с использованием библиотеки https://github.com/FriendsOfPHP/Goutte.
  • на Python с использованием PySpider (docs.pyspider.org)
  • Если удобен другой инструмент - готовы обсудить.
Контент на сайтах, который надо парсить:
  • доступен после авторизации
  • Иногда защищен CSRFToken
  • Иногда приходят фрагменты HTML
По каждому сайту будет предоставлена инструкция со скриншотами, обозначен каждый фрагмент, который необходимо спарсить. Информацию необходимо сохранить в СУБД (предпочтительно в PostgreSQL).

Какая информация должна быть извлечена:

  • Содержимое различных каталогов, поэлементно, с отслеживанием их изменений (хранить каждую извлеченную версию и анализировать изменения)
  • Текстовая информация в элементах каталогов: описание, цифры, гиперссылки, даты - около 15 полей
  • Файлы: картинки, архивы (без анализа/распознавания/парсинга, просто скачать)
Всего сайтов: 11

Примеры сайтов прикреплены (полноразмерные скриншоты будут предоставлены с инструкцией).