Написать парсер
Задача: Получить список всех доменов в сервисе Publer, рекламирующихся в разделе MT - мобильные приложения за указанный промежуток времени.
Сервис платный, имеется демо доступ для тестов. На момент парсинга будет предоставлен полный доступ без ограничений по выдаче.
В первый раз будет парситься вся выдача (с 1го марта 2015 по наст. время), далее должна быть возможность задавать даты старта (чтобы не парсить всю выдачу заново)
Формат - их адреса (с поддоменами), но без доп. параметров
Учитывать только прямые ссылки, которые указаны, домены редиректов не учитывать.
По каждому домену посчитать количество объявлений, ссылающихся на этот домен и количество разных названий приложений.
Вывод результатов сделать в формате html с простой табличной версткой
Скрипт может быть как серверный, так и десктоп (должен работать под Apple Mac)
Необходимо учитывать, что объявлений в базе достаточно много, если взять всю базу объявлений (а в первый раз будет парситься именно вся база), на момент написания ТЗ - 1118 страниц, поэтому даже простая работа скрипта может занять длительное время, и также необходимо делать паузы между запросами, чтобы не получить бан.
Не думаю, что на сервисе написана какая-то мощная система для антипарсинга, но какая-то защита вероятно есть. Длительность паузы на ваше усмотрение