Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер можно сделать на основе каких-то существующих десктопных программ для парсинга или написать под командную строку линукс с нуля.

Парсер должен в течение дня проходить по урлам в виде:

http://www.realtor.com/realestateandhomes-search/91316/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

http://www.realtor.com/realestateandhomes-search/90210/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

http://www.realtor.com/realestateandhomes-search/90027/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?pgsz=50&ml=2

и тп. Урлы будут отличаться индексом (90210, 90027, 91316), но могут меняться и некоторые параметры.

Скрипт будет запускаться каждый день. На указанных страницах нужно проходить по всем записям и парсить адреса как показано в скриншоте. Скрипт должен проходить по всем записям на странице и переходить на следующую страницу пейджинга если она есть. Проходить все записи нужно до тех пор, пока не встретится запись, которая уже была спарсена, либо пока не закончатся результаты на всех страницах пейджинга. Это нужно для того, чтобы мы парсили только новые записи в течение дня. Хорошим, уникальным идентификатором записи может служить урл дома.

В результате работы скрипта на сервере должен быть сохранен такой csv файл:

Street Address, City, State, Zip Code, Selling Price, URL, Date/time parsed, Parsed URL

"5460 White Oak Ave Unit E223","Encino","CA","91316","$259,900","http://www.realtor.com/realestateandhomes-detail/5460-White-Oak-Ave-Unit-E223_Encino_CA_91316_M20883-82948","2015-05-13 13:00","http://www.realtor.com/realestateandhomes-search/91316/type-single-family-home,condo-townhome-row-home-co-op/price-170000-275000?ml=2"

См. пример csv файла в приложении т.к. у веблансера не сложилось с разпознаванием ссылок.

Во время обращения к серверу скрипт должен использовать различные прокси, чтобы бороться с банами и сделать работу парсера не такой очевидной для realtor.com. Прокси будем скрипту давать в отдельном файле, в столбик.

Также в настройках мы должны иметь возможность задавать минимальное и максимальное время задержки между запросами к realtor.com. Скрипт должен самостоятельно задавать случайное время задержки между запросами в пределах минимального и максимального значений.

Прошу дать предварительную оценку такого скрипта или задать вопросы в личку если есть.

9 лет назад
anatlys
48 летУкраина
15 лет в сервисе
Был
4 года назад
Выбранный исполнитель
izimodo
Артем 
35 летУкраина
14 лет в сервисе
Был
год назад
9 лет назад
$100
3 дня
Работа выполнена отлично. Все работает. Спасибо Артему за вдумчивый подход.
Все отлично!
  • Похожие заказы
  • Добрый день, который день возникают проблемы с доступностью сайта. Поменял хостинг, но все так же продолжается. Как только возрастает нагрузка на сайт, он начинает виснуть. Тех.поддержка ничего внятного сказать не может. Нужно понять в чем проблема и ...

    Завершен
    9 лет назад
  • В техподдержке написали следующее: Зафиксирована рассылка спама, в связи с чем заблокирована возможность отправки писем с сервера.Статистически, причину проблемы необходимо искать в уязвимости скриптов сайта. Мы рекомендуем вам обратиться к стороннему специалисту, который сможет провести аудит ...

    Закрыт
    9 лет назад
  • Нужно доработать сайт http://kalevala-d.ru/ Вот макет, как должно будет выглядеть: http://sites78.ru/kalevala5/ 1. Добавить соцсети в шапку 2. Добавить кнопку "Вниз" (при клике на кнопку экран проматывается вниз до блока "Новости") 3. Добавить блок "Новости" (по 10 новостей видно. При клике ...

    Завершен
    9 лет назад
  • 1. Убрать подпись с датой/автором сверху статей 2. Настроить расположение фото и текста в статьях, отображение символов нумерованного списка ( не отображаются) 3. Вставить код счетчика 4. Настроить Вебмастер Яндекс 5. В подкаталоге обозначить , что цена за кг. 6. Исправить подписи строк в корзине 7. Поменять карту ...

    Закрыт
    9 лет назад
  • Есть каталог с наименованиями zoo — у каждого цена. Необходимо сделать вывод цен в таком формате http://prntscr.com/72vll5 http://prntscr.com/72vls0 Необходимые поля есть, надо сделать вывод — выбираем категорию, наименование, кнопку «узнать цену» и оно отображается. Можете предложить альтернативные ...

    Закрыт
    9 лет назад
  • Сайт интернет магазина работает на CMS VAMSHOP. В связи с отказом хостера от поддержки PHP 5.2 необходимо перевести сайт на работу на PHP 5.3. В настоящее время обнаружена проблема в одном месте, на странице оформления заказа. Дальнейшее ...

    Закрыт
    9 лет назад