Парсер картинок. Итог: csv + jpg в zip
Требуется парсер картинок зданий с ресурса гдеэтотдом.ру
Я предоставляю: VPS сервер /на который надо будет поставить парсер/, доступ к проксям через сервис hideme.ru и список адресов, ок. 200 000, в формате csv /1 столбец - Улица; 2 - номер дома/.
Итог работы парcера: csv файл с 3 столбцом, в строках которого прописаны через запятую имена фоток для конкретного адреса + zip архив фотографий.
Скорость работы - должна быть высокой, потоков в 20, по 3-5 сек. на поток/ адрес, итого: 200 000 адресов - спарсить надо часов за 13. Поэтому, надо предусмотреть систему продолжения работы с момента сбоя/ остановки и решения по обходу банов.
Из функционала: выбор и загрузка файла для обработки (в архиве zip - потом его скрипт распаковывает на хостинге и обрабатывает, ибо файлы весят по 50 и более мб. и могут быть сбои при загрузке); Кодировка файла для обработки/ c результатом win1251. Максимальное количество картинок: 1 - все. Количество потоков: 1 - 20.
Уже есть наработки по данному направлению - проблема в изменении исходного кода на источнике. Исходники передам, помогут в работе.
Фактически, надо доработать имеющийся парсер. Во вложении блок кода для ориентира.
Так же интересyют парсерs: cian.ru irr.ru sob.ru avito.ru slando.ru и других досок, раздел недвижимость.
Вторым этапом данного проекта будет адаптация скрипта для сайта-каталога недвижимости. Задача: подгрузка картинок по адресу в том же формате из нескольких источников: гугл, яндекс и ged карты.
В тендере заполняем срок- не горят, бюджет - комфортный, комментируем макс. детально, задаём вопросы прямо в поле предложения.
Рассмотрю все предложения, они скрыты.