Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Многопоточный web парсер с CIAN.ru в CSV + jpg.

Многопоточный парсер ресурса CIAN.ru, с установкой на cервер VPS , т.к. данных оч. много (от 2000 до 150 000 страниц) и их надо парсить ежедневно.

Парсер должен иметь web интерфейс с возможностью изменения параметров:

1. Частоты/ дат парсинга по проектам.

2. Вставкой стартовых url с user ID.

3. Возможностью парсить только объекты с фото.

4. Возможностью парсить только телефоны из объявлений.

5. Логом процессов в реальном времени, их сохранением автоматом.

6. Управления итогами: перемещение по папкам, удаление, скачивание.

7. Должна иметься возможность скопировать архив с фото в определённую папку и распаковать их там, с целью получения доступа к фоткам по ссылке вида: www.domen.ru/fotki/foto.jpg

Возможности работы протестировать заранее, т.к. на ресурсе-источнике есть защита, кот. обходится путём ввода логина-пароля, кот. я и предоставлю. Соотв., надо ещё и с предавторизацией сделать скриптик.

Задачи к реализации:

1. Парсинг из CIAN.ru наших и чужих объектов в таблицу XLS/ CSV + папка с фотографиями.

1.1. Разбивка по столбцам - для каждой категории недвижимости она своя и приводится ниже.

1.2. К подготовке два типа объектов, ниже приводятся ссылки на конкретно наши объекты, именно их и надо парсить.

В функционале заложить возможность изменения id_user на другой, т.к. у нас неск. учёток, а так же парсить просто все объекты из определённой категории. Ещё раз, наши лоты:

- квартиры на продажу в Москве и Московской области;

http://www.cian.ru/cat.php?deal_type=2&id_user=37876

- дома и земельные участки в Московской области;

http://www.cian.ru/cat.php?suburbian=yes&id_user=37876&cian=1&deal_type=2

1.3. Столбцы итогового файла CSV для каждого типа объекта (через точку с запятой).

1.3.1. Квартиры. Пример заполнения и столбцы в файле CIAN_Kvartira_primer.csv

№;Заголовок;Область;Район;Город;Улица;Номер дома;Расстояние;До метро;Кол-во комнат;Общая площадь;Жилая площадь;Площадь кухни;Площадь комнат;Этаж;Этажность;Тип дома;Наличие лифта;Санузел;Наличие балкона;Куда выходят окна;Цена, руб.;Тип продажи;Дата публикации;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии

1.3.2. Дома и участки. Пример заполнения и столбцы в файле CIAN_DOM_Uchastok_primer.csv

№;Объект;Регион;Адрес;Шоссе;Расстояние от МКАД, км;Площадь уч-ка, соток;Площадь дома, м2;Цена, руб.;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии

1.4. Каждый лот имеет свою полную персональную карточку объекта.

Пример:

- дома и земля: http://www.cian.ru/showphoto.php?id_suburbian=1323899

- квартиры: http://www.cian.ru/showphoto.php?id_flat2=862907

Даже если нет фоток, парсить инфу надо именно из этих, полных карточек объектов.

Получить ID объекта можно по маске из ссылки добавить ФОТО http://www.cian.ru/editimg.php?id_flat2=860728, в этом примере 860728 - и есть ID квартиры, подставив который в строку для квартир, к примеру, "http://www.cian.ru/showphoto.php?id_flat2=" мы получим линк на полную карточку объекта. Та же схема и для домов и земли. Полный линк по примеру: http://www.cian.ru/showphoto.php?id_flat2=860728

1.5. Итоги принимаю в виде установленного скрипта на моём сервере и инструкции по работе с ним.

Хостинг: handyhost.ru http://handyhost.ru/services/vps.html , сейчас тариф VPS1

1.6. Файл CSV для каждой из двух категорий свой:

Doma_uchastki_ id_user_date_time.csv

Kvartiry_ id_user_date_time.csv

1.7. Фотки пакуются в архив ZIP без сжатия.

Имя архива: Pictures_РАЗДЕЛ (Doma_uchastki или Kvartiry)_id_user_date_time.zip

1.8. Во вложении:

1.8.1. Само ТЗ. TZ_Parser_CIAN.txt

1.8.2. Шаблоны для квартир и домов-участков. CIAN_Kvartira_primer.csv, CIAN_DOM_Uchastok_primer.csv

1.8.3. Пример рабочего парсера CIAN, собирающего номера телефонов из объявлений. ph_CAIN_Parser_tel.php

1.8.4. Пример парсера, аналогичного ТЗ выше. CIAN_Parser_foto_data_all.zip

1.9. Предоставлю:

- доступ в личный кабинет юзера на cian.ru;

- доступы на VPS-хостинг.

Отвечаем в заявке: — комфортный бюджет (без фанатизма!); — сроки (от 5 дней); методика реализации (язык программирования и т.п.); — иные комментарии.

12 лет назад
5050482
41 годРоссия
17 лет в сервисе
Был
3 года назад
Выбранный исполнитель
cliker
Андрей 
34 годаУкраина
14 лет в сервисе
Был
5 месяцев назад
12 лет назад
$130
10 дней
Андрей за столь длительное время разработки проекта проявил себя как профессиональный программист, терпеливый исполнитель и очень порадовал итоговым результатом работы. Тех задание в итоге было несколько осложнено, чем планировалось в ТЗ изначально, но даже это не помешало Андрею его выполнить, чему я весьма рад и признателен ему. Работу итоговую можете посмотреть в портфеле, от себя добавлю, что на Андрея можно положиться и он точно выполнит порученный ему проект. Рекомендую к сотрудничеству.
Несмотря на затянутое время со здачей проекта, оплатил проект по договоренной сумме. Приятно иметь дело с такими людьми. Советую.
  • Похожие заказы
  • Необходимо модернизировать магазин на движке OpenCart, чтобы в категориях товара отображались названия подкатегорий и ниже список товаров подкатегорий. Выглядеть это должно быть так http://krasnoyarsk.dns-shop.ru/catalog/185/ Т.е. чтобы в категориях сразу отображалось до 200 товаров из подкатегорий. Если ...

    Закрыт
    12 лет назад
  • $100

    Конечно, тут доработать это волшебное слово, сайт на самописном движке- Обменнка, заточенная под продажу трафика. Нужно чуть изменить принцип работы и довести до ума админку. Подробности лично. icq 349853125 [email protected]

    Закрыт
    12 лет назад
  • $100

    Здравствуйте, кто может написать панель управления игровыми сервера. ____________________________________________________________________________________________________________________ 1) Нужно что бы сервер скачивался либо с офф сайта, либо с урл который будет в дальнейшем задан 2) Панелька должна поддерживать игры: CSS,CS 1.6, TF2, Samp 3)В панеле нужны ...

    Закрыт
    12 лет назад
  • Есть сайт, на котором организована галерея (портфолио компании). Нужно изменить его (сейчасhttp://dpgp.ru/catalog/event-agencys/, что бы в нем можно было размещать отдельно различные галереи по выполненным работам. Как должно выглядеть и понять примерную структуру вам помогут прикрепленные ...

    Закрыт
    12 лет назад
  • $10

    1. Сделать скрипт для DLE, который сохраняет по шаблону список всех новостей, которые отображаются (опубликованы) на текущий момент, это важно, так как обычно у меня есть новости, для которых не наступила дата публикации. Шаблон: Название новости|Полная ссылка|Дата На ...

    Закрыт
    12 лет назад
  • Требуется php скрипт, который сможет анализировать определенные сайты на предмет наличия сайта по определенным ключевикам в выдачи яндекса и гугла. Скрипт должен сам собирать низкочастотные и среднечастотные запросы по которым далее будет проверять наличие сайта ...

    Закрыт
    12 лет назад