Парсер выдачи Яндекс
Федор12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.09.2013
Требуется реализовать задачу либо скриптом, либо настройкой Content Downloader
На входе: список запросов в текстовом файле построчно, список proxy серверов (IP + логи и пароль) в текстовом файле
1. Скрипт должен отличать бан и каптчу и прекращать использовать прокси, для Content Downloader - распознавать каптчу
2. На выходе должен быть CSV из двух колонок: исходный запрос и упрощённый HTML тела страницы (заголовки страниц обёрнуты в H2, сниппеты в P, остальное содержание и форматирование удалено)
3. Если в выдаче есть изображения-ссылки на Яндекс Картинки, нужно сохранить (одну/ две / все - как удобнее) и вставить тегом IMG в начало второй колонки CSV