Сделать парсер рекламных блоков Яндекс Директ (РСЯ) с сайтов

Дмитрий7 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
13.11.2018

Необходимо сделать парсер нескольких сайтов (думаю выборка примерно 30 сайтов).  

Парсер должен сначала имитировать поиск в яндексе  по нескольким запросам. То есть я где-то ввожу список из запросов (например от 1 до 10 схожих запросов), парсер все эти запросы поочередно вбивает в поиск яндекса, затем совершает обход сайтов и собирает с них информацию о рекламодателях. Во время обхода парсер должен имитировать обновление страницы, чтобы попытаться заставить обновиться рекламные блоки и тем самым собрать с одного сайта (одного рекламного блока) сразу несколько объявлений. Также необходимо избавляться от дублей. Если Заголовок+Текст+Ссылка идентичные – то объединять их. Либо во время парсинга проверять есть ли уже такие данные в итоговом файле парсинга и если они есть, то не добавлять заново эту позицию. 

Необходимо собрать в файл: 

- Картинки (скачиваютсяя в отдельную папку и в файле указывается ссылка на картинку в папке) 

- Заголовки 

- Описание 

- Ссылка на сайт 

- Быстрые ссылки и Уточнения (если отображаются) 

На выходе файл эксель с данными + папка с картинками 

Ниже примеры сайтов откуда парсим. Во вложении пример блока, который парсим 

avito.ru 

auto.ru 

m.avito.ru 

zen.yandex.ru 

news.yandex.ru 

zen.yandex.com 

pogoda.yandex.ru 

gismeteo.ru 

video.yandex.ru 

images.yandex.ru 

m.pogoda.yandex.ru 

rambler.ru 

tv.yandex.ru 

games.mail.ru 

news.mail.ru 

rbc.ru 

drug.vokrug 

mail.yandex.ru 

m.news.rambler.ru 

rydo.ru 

news.rambler.ru 

lenta.ru 

m.lenta.ru 

unibo.ru 

maps.yandex.ru 

irr.ru 

ria.ru 

gazeta.ru 

smi2.ru 

flagma.ru