Парсинг большого сайта по недвижимости

Алексей17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
06.12.2017

Необходимо выпарсивать страницы по объектам недвижимости на сайте https://www.realtor.ca и заносить их в базу данных.

У каждого листинга есть свой уникальный код MLS. В начале номера иногда добавляется«C» или «W». Например, C4131916.

Предварительно методом перебора надо получить первичную информацию по номеру MLS. Всего в базе сейчас около 1 100 000 записей. Для каждого объекта недвижимости нужно получить следующие поля (в скобочках

примерные значения):

·        MLS Number (C4131916)

·        Адрес, который разбить по полям

o  Адрес (# 707 -4673 JANE ST)

o  Город (Toronto)

o  Провинция (Ontario)

o  Индекс (M3N2L1)

·        Стоимость аренды (1500)

·        Стоимость продажи (500000)

·        Количество спален (4+2)

·        Количество ванных комнат (3)

·        Property Type – тип недвижимости (Single Family)

·        Title (Condominium/Strata)

·        Building Type (Apartment)

·        Parking Type (Underground)

·        Community Name (Black Creek)

·        Neighbourhood Name (Manordale)

·        Storeys (2)

·        Built in – дата постройки (1961)

·        LandSize (69.9 ft X 100 ft)

В будущем количество полей может увеличиться.

После наполнения первоначальной базы надо будет каждый день перезакачивать информацию по существующим ID и отслеживать факт продажи/сдачи. Также проверять добавление новых листингов и тоже их закачивать.

Потенциальные проблемы:

·        Вероятность блокировки по большому количеству запросов

·        Сложность обращения напрямую к объекту недвижимости по его MLS коду.

В первой версии достаточно сохранять выпарсенные данные в текстовые файлы.

По всем вопросам пишите в личку. Если их нет, указывайте срок и цену.