Сделать парсер рекламных блоков Яндекс Директ (РСЯ) с сайтов
Необходимо сделать парсер нескольких сайтов (думаю выборка примерно 30 сайтов).
Парсер должен сначала имитировать поиск в яндексе по нескольким запросам. То есть я где-то ввожу список из запросов (например от 1 до 10 схожих запросов), парсер все эти запросы поочередно вбивает в поиск яндекса, затем совершает обход сайтов и собирает с них информацию о рекламодателях. Во время обхода парсер должен имитировать обновление страницы, чтобы попытаться заставить обновиться рекламные блоки и тем самым собрать с одного сайта (одного рекламного блока) сразу несколько объявлений. Также необходимо избавляться от дублей. Если Заголовок+Текст+Ссылка идентичные – то объединять их. Либо во время парсинга проверять есть ли уже такие данные в итоговом файле парсинга и если они есть, то не добавлять заново эту позицию.
Необходимо собрать в файл:
- Картинки (скачиваютсяя в отдельную папку и в файле указывается ссылка на картинку в папке)
- Заголовки
- Описание
- Ссылка на сайт
- Быстрые ссылки и Уточнения (если отображаются)
На выходе файл эксель с данными + папка с картинками
Ниже примеры сайтов откуда парсим. Во вложении пример блока, который парсим
drug.vokrug