Создать парсер с CIAN.ru в CSV + jpg

Сергей5 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
18.05.2020

Цель: Создать парсер с CIAN.ru в CSV + jpg

https://novosibirsk.cian.ru/

По умолчанию парсер должен собирать информацию ежедневного и выгружать автоматически в формате CSV.

Объект парсинга: объявления по вторичной недвижимости, новостройкам,коммерческой недвижимости и земле по Новосибирской области.

Субъект парсинга: Новосибирская область

Задача к реализации:

1.     Парсинг указанных данных из ЦИАН по разделам “вторичная недвижимость”, “новостройки”, “коммерческая

недвижимость”, "коммерческая земля" и “земельные участки” в формате .CSV ежедневно.

2.     Разбивка по столбцам - для каждой категории недвижимости

3.     К подготовке пять типов объектов:

-Вторичная недвижимость (https://novosibirsk.cian.ru/kupit-kvartiru-vtorichka/)

-Новостройки (https://novosibirsk.cian.ru/kupit-kvartiru-novostroyki/)

- Коммерческая недвижимость (https://novosibirsk.cian.ru/cat.php?deal_type=sale&engine_version=2&offer_type=offices&office_type%5B0%5D=1&office_type%5B1%5D=2&office_type%5B2%5D=3&office_type%5B3%5D=4&office_type%5B4%5D=5&office_type%5B5%5D=7&office_type%5B6%5D=9&office_type%5B7%5D=10&office_type%5B8%5D=11®ion=4897)

-Коммерческая земля (https://novosibirsk.cian.ru/kupit-kommercheskiy-uchastok/)

-Земельные участки (https://novosibirsk.cian.ru/kupit-zemelniy-uchastok/)

4.Столбцы итогового файла CSV для каждого типа объекта (через точку с запятой)

5.Пример заполнения и столбцы в файле Cian_Data.xlsx, желательно поменять порядок и наименование столбцов на след.:

5.1 Для категорий вторичная недвижимость и новостройки

ID; Ссылка на объект (URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена квадратного

метр; Город; Район ; Микрорайон; Улица; Номер дома; ГЕО (широта; долгота);

Количество комнат ; Общая площадь; Этаж ; Этажность; Материал дома

(тип стен); Тип квартиры; Тип дома; Год постройки; Наименование жилого

комплекса ; Застройщик жилого комплекса (для новостроек); Срок завершения

строительства (для новостроек); Класс дома (эконом, комфорт, бизнес); Ближайшая

станция метро; Расстояние до метро.

5.2 Для категорий земельные участки и коммерческая земля

         ID; Ссылка на объект(URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена

за сотку; Город; Район; Микрорайон; Улица; Номер дома; ГЕО (широта; долгота);

Площадь участка; Категория земельного участка; Канализация; Вода;

Электричество; Асфальтовая дорога; Описание; Контакты.

5.3 Для категории коммерческая недвижимость

ID; Ссылка на объект(URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена

квадратного метр; Город; Район ; Микрорайон; Улица; Номер дома; ГЕО

(широта; долгота); Категория недвижимость; Описание; Контакты.

6. Каждый лот имеет свою полную персональную карточку объекта.

Информацию нужно парсить из индивидуальной карточки объекта.

Пример:

-Вторичная недвижимость https://novosibirsk.cian.ru/sale/flat/232099448/

-Земельные участки https://novosibirsk.cian.ru/kupit-zemelniy-uchastok/

7.Итоги в виде установленного скрипта на сервере и инструкции по работе с ним.

8.Выгрузка файла в формате CSV для каждой категории отдельная

8.1 Vtorichka_data.csv

8.2 Novostroiki_data.csv

8.3 Сommercial_data.csv

8.4 Сommercial_land_data.csv

8.5 Land_data.csv

9.Во вложении:

9.1 Техническое задание ТЗ_парсер_ЦИАН

9.2 Шаблон желаемого результата Cian_Data.xlsx

10. Возможность скопировать архив с фото в определённую папку и распаковать их там, с целью получения доступа к фото по ссылке.

Только для разделов "Коммерческая недвижимость", "Коммерческая земля" и "Земельные участки".

Примечание:

«Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо

постоянным - IP заносится в чёрным список и разблокировать его можно только

после обращения в тех поддержку».

Возможности работы протестировать заранее, т.к. на ресурсе-источнике есть защита.

Ответ по заявке предоставить в след. форме:

1.     Стоимость услуги;

2.     Срок реализации;

3.     Методика реализации (язык программирования и т.п.)

Заявки фрилансеров