Парсинг большого сайта по недвижимости
Необходимо выпарсивать страницы по объектам недвижимости на сайте https://www.realtor.ca и заносить их в базу данных.
У каждого листинга есть свой уникальный код MLS. В начале номера иногда добавляется«C» или «W». Например, C4131916.
Предварительно методом перебора надо получить первичную информацию по номеру MLS. Всего в базе сейчас около 1 100 000 записей. Для каждого объекта недвижимости нужно получить следующие поля (в скобочках
примерные значения):
· MLS Number (C4131916)
· Адрес, который разбить по полям
o Адрес (# 707 -4673 JANE ST)
o Город (Toronto)
o Провинция (Ontario)
o Индекс (M3N2L1)
· Стоимость аренды (1500)
· Стоимость продажи (500000)
· Количество спален (4+2)
· Количество ванных комнат (3)
· Property Type – тип недвижимости (Single Family)
· Title (Condominium/Strata)
· Building Type (Apartment)
· Parking Type (Underground)
· Community Name (Black Creek)
· Neighbourhood Name (Manordale)
· Storeys (2)
· Built in – дата постройки (1961)
· LandSize (69.9 ft X 100 ft)
В будущем количество полей может увеличиться.
После наполнения первоначальной базы надо будет каждый день перезакачивать информацию по существующим ID и отслеживать факт продажи/сдачи. Также проверять добавление новых листингов и тоже их закачивать.
Потенциальные проблемы:
· Вероятность блокировки по большому количеству запросов
· Сложность обращения напрямую к объекту недвижимости по его MLS коду.
В первой версии достаточно сохранять выпарсенные данные в текстовые файлы.
По всем вопросам пишите в личку. Если их нет, указывайте срок и цену.