Сделать парсер под Яндекс и Гугл

Евгения18 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

12.06.2013

Необходимо сделать парсер под Яндекс и под Гугл, который будет прогонять урлы сайта с определенным префиксом с целью понять, какие страницы сайта присутствуют в индексе, а какие нет.

ЯНДЕКС.

Для Яндекса урл прогоняется с префиксом “url:”.

Т.е. для урла типа http://agrobazar.ru/ будет запрос url:http://agrobazar.ru/ .

Если в результатах поиска отображается искомая страница, то это означает, что страница в индексе есть. В этом случае в базе в списке урлов ставится «1». Если в индексе этой страницы нет, то ставится «0».

Собирать данные необходимо именно через поиск, а не XML, т.к. там отдаются некорректные данные.

GOOGLE

Для гугла примерно то же самое, только префикс будет «cache». Запрос следующего вида: cache:http://agrobazar.ru/ .

Если страница по результатам поиска есть в кэше, то значит, что и в индексе она есть. В базе ставим «1». Если выдается 404-я ошибка, то странице в кэше и в индексе нет. В базе ставим «0».

В итоговой базе необходимо предусмотреть две вещи:

- суммирование значений для того, чтобы понимать, какое количество страниц в индексе;

- фильтрация по части значения в урл для того, чтобы отобразить, к примеру, все урлы по какой-то области или товару.

http://agrobazar.ru/vegetables/wholesale/Cucumbers/poselok_anna_anninskiy_rayon_voronejskaya_oblast_rossiya/

При вводе voronejskaya_oblast должны отобразиться все урлы, содержащие это значение. После применения фильтрации должна сохраняться возможность суммировать результаты, для вычисления количества страниц в индексе.

Разъяснение принципа работы парсера можно посмотреть вот тут: http://www.youtube.com/watch?v=vV7PttD51GE, начиная с 16-й минуты.

Итоговые данные можно представлять в эксель или cvs. По результатам работы от вас ожидаем результаты парсинга, а также сам парсер. Парсер необходимо выполнить так, чтобы была возможность им пользоваться самостоятельно.

В аттаче к тендеру примерный внешний вид базы с урлами. Полный список (всего около 2 500 000 урлов) будет предоставлен исполнителю.