Сделать парсер под Яндекс и Гугл
Необходимо сделать парсер под Яндекс и под Гугл, который будет прогонять урлы сайта с определенным префиксом с целью понять, какие страницы сайта присутствуют в индексе, а какие нет.
ЯНДЕКС.
Для Яндекса урл прогоняется с префиксом “url:”.
Т.е. для урла типа http://agrobazar.ru/ будет запрос url:http://agrobazar.ru/ .
Если в результатах поиска отображается искомая страница, то это означает, что страница в индексе есть. В этом случае в базе в списке урлов ставится «1». Если в индексе этой страницы нет, то ставится «0».
Собирать данные необходимо именно через поиск, а не XML, т.к. там отдаются некорректные данные.
Для гугла примерно то же самое, только префикс будет «cache». Запрос следующего вида: cache:http://agrobazar.ru/ .
Если страница по результатам поиска есть в кэше, то значит, что и в индексе она есть. В базе ставим «1». Если выдается 404-я ошибка, то странице в кэше и в индексе нет. В базе ставим «0».
В итоговой базе необходимо предусмотреть две вещи:
- суммирование значений для того, чтобы понимать, какое количество страниц в индексе;
- фильтрация по части значения в урл для того, чтобы отобразить, к примеру, все урлы по какой-то области или товару.
При вводе voronejskaya_oblast должны отобразиться все урлы, содержащие это значение. После применения фильтрации должна сохраняться возможность суммировать результаты, для вычисления количества страниц в индексе.
Разъяснение принципа работы парсера можно посмотреть вот тут: http://www.youtube.com/watch?v=vV7PttD51GE, начиная с 16-й минуты.
Итоговые данные можно представлять в эксель или cvs. По результатам работы от вас ожидаем результаты парсинга, а также сам парсер. Парсер необходимо выполнить так, чтобы была возможность им пользоваться самостоятельно.
В аттаче к тендеру примерный внешний вид базы с урлами. Полный список (всего около 2 500 000 урлов) будет предоставлен исполнителю.