Парсер картинок. Итог: csv + jpg в zip

Александр17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
07.12.2012

Требуется парсер картинок зданий с ресурса гдеэтотдом.ру

Я предоставляю: VPS сервер /на который надо будет поставить парсер/, доступ к проксям через сервис hideme.ru и список адресов, ок. 200 000, в формате csv /1 столбец - Улица; 2 - номер дома/.

Итог работы парcера: csv файл с 3 столбцом, в строках которого прописаны через запятую имена фоток для конкретного адреса + zip архив фотографий.

Скорость работы - должна быть высокой, потоков в 20, по 3-5 сек. на поток/ адрес, итого: 200 000 адресов - спарсить надо часов за 13. Поэтому, надо предусмотреть систему продолжения работы с момента сбоя/ остановки и решения по обходу банов.

Из функционала: выбор и загрузка файла для обработки (в архиве zip - потом его скрипт распаковывает на хостинге и обрабатывает, ибо файлы весят по 50 и более мб. и могут быть сбои при загрузке); Кодировка файла для обработки/ c результатом win1251. Максимальное количество картинок: 1 - все. Количество потоков: 1 - 20.

Уже есть наработки по данному направлению - проблема в изменении исходного кода на источнике. Исходники передам, помогут в работе.

Фактически, надо доработать имеющийся парсер. Во вложении блок кода для ориентира.

Так же интересyют парсерs: cian.ru irr.ru sob.ru avito.ru slando.ru и других досок, раздел недвижимость.

Вторым этапом данного проекта будет адаптация скрипта для сайта-каталога недвижимости. Задача: подгрузка картинок по адресу в том же формате из нескольких источников: гугл, яндекс и ged карты.

В тендере заполняем срок- не горят, бюджет - комфортный, комментируем макс. детально, задаём вопросы прямо в поле предложения.

Рассмотрю все предложения, они скрыты.