Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо сделать парсер под Яндекс и под Гугл, который будет прогонять урлы сайта с определенным префиксом с целью понять, какие страницы сайта присутствуют в индексе, а какие нет.

ЯНДЕКС.

Для Яндекса урл прогоняется с префиксом “url:”.

Т.е. для урла типа http://agrobazar.ru/ будет запрос url:http://agrobazar.ru/ .

Если в результатах поиска отображается искомая страница, то это означает, что страница в индексе есть. В этом случае в базе в списке урлов ставится «1». Если в индексе этой страницы нет, то ставится «0».

Собирать данные необходимо именно через поиск, а не XML, т.к. там отдаются некорректные данные.

GOOGLE

Для гугла примерно то же самое, только префикс будет «cache». Запрос следующего вида: cache:http://agrobazar.ru/ .

Если страница по результатам поиска есть в кэше, то значит, что и в индексе она есть. В базе ставим «1». Если выдается 404-я ошибка, то странице в кэше и в индексе нет. В базе ставим «0».

В итоговой базе необходимо предусмотреть две вещи:

- суммирование значений для того, чтобы понимать, какое количество страниц в индексе;

- фильтрация по части значения в урл для того, чтобы отобразить, к примеру, все урлы по какой-то области или товару.

http://agrobazar.ru/vegetables/wholesale/Cucumbers/poselok_anna_anninskiy_rayon_voronejskaya_oblast_rossiya/

При вводе voronejskaya_oblast должны отобразиться все урлы, содержащие это значение. После применения фильтрации должна сохраняться возможность суммировать результаты, для вычисления количества страниц в индексе.

Разъяснение принципа работы парсера можно посмотреть вот тут: http://www.youtube.com/watch?v=vV7PttD51GE, начиная с 16-й минуты.

Итоговые данные можно представлять в эксель или cvs. По результатам работы от вас ожидаем результаты парсинга, а также сам парсер. Парсер необходимо выполнить так, чтобы была возможность им пользоваться самостоятельно.

В аттаче к тендеру примерный внешний вид базы с урлами. Полный список (всего около 2 500 000 урлов) будет предоставлен исполнителю.

11 лет назад
SBW
38 летРоссия
17 лет в сервисе
Была
5 лет назад
  • Похожие заказы
  • Всем добрый день! Проблема взаимодействия сайта с api. Более подробно уже когда будем общаться о музыкальниках. Желательно решение проблемы как можно быстрее

    Закрыт
    11 лет назад
  • Технические требования к баннеру- http://www.adriver.ru/doc/ban/spec/spec_570.html Пример баннера http://www.adriver.ru/doc/showcase/27/27_27.html Требуется сделать баннер-простую картинку, без анимации, но в соответствии с Техническими требованиями портала Картинку мы дадим Вес – до 75Кб. Баннер состоит из двух частей: основная которая ставится на место Премиум-баннера ...

    Закрыт
    11 лет назад
  • $50

    Необходимо доработать скрипт добавления новостей. 1. При добавлении новости есть возможность добавлять фотоматериалы в архиве (zip), нужно сделать чтоб можно было сразу создавать 5 типов миниатюр разного размера и помещать в разные папки, но имя должно ...

    Закрыт
    11 лет назад
  • $30

    Задача: Отслеживание и уведомление по SMS о появлении товара на avito.ru, molotok.ru, irr.ru, meshok.ru 1. Система должна быть модульная, чтобы можно было добавить отслеживание на новом сайте не перестраивая всю систему, а только добавив плагин или ...

    Закрыт
    11 лет назад
  • 1. В профиле пользователя введенное значение в поле WMID подтверждать на принадлежность через WM Keeper 2. Сделать поле WMID не редактируемым 3. Поле WMR, введенное значение проверять на принадлежность к полю WMID.

    Закрыт
    11 лет назад