Парсер фотографий и панорам зданий из Google/Яндекс/ГЭД.карт
Имеется список адресов зданий по г. Москва и МО в виде таблицы формата csv/ xls.
Строк примерно около 400 000. Уникальных адресов примерно 150000.
Задача — собрать для адресов приведенных в списке фотографии из БД Google.Maps, Яндекс.Карт и сервиса gdeetotdom.ru 1-5 фото из каждого источника, если есть фото.
По Яндекс/Google - собрать ПАНОРАМЫ этих же строений, если они имеются. Процент корректного ракурса должен быть не ниже 70%. Это значит, что здание видно не менее чем на 70% на сделанном скриншоте.
Разрешение изображений до 3000 пикселей по ширине/ высоте, исходные изображения, без обработки, в формате JPG.
Именование полученных изображений, через запятую надо вставить в таблицу xls в ту же строку (если их несколько), ячейку рядом с адресом. Для большей разборчивости если фотографии по нескольким источникам, разделить источники по столбцам и в них прописать имена сохраненных изображений.
Сами изображения сохранить локально в папку, с уникальными унифицированными именами (адрес объекта латиницей) и тегами (Panorama_, YM - яндекс, GM - google, GED – гдеэтотдом), форматом .jpg
Пример: Panorama_YM_Bol.Afanasievskiy_per_5.jpg
Функционал:
- возможность выбрать источник прогона парсера (Яндекс, Google, гдеэтотдом или всё сразу) и тип (карты-панорамы);
- кол-во изображений в ячейке к записи (по достижении которого переходим к следующей строке в списке адресов);
- настройка прокси-листа (желательно, чтобы авто-поиск и вставка осуществлялась, как в http://kolchaka.net/parsery/x-parser-pro/); кол-во потоков (1-~);
- Все имена файлов должны быть уникальны, а так же совпадать в случае, если тот же адрес будет парситься через неделю, а в БД уже есть эти изображения, то имя будет опять такое же, чтобы избежать повторного парсинга, отработка происходит локально, подстановкой нужного имени.
- Возможность запуска на хостинге или через WAMP/LAMP, локально.
- Возможность продолжения парсинга с остановленного места. Запоминание промежуточных результатов, с подстановкой по тому же адресу готовых результатов, если они ранее уже были получены и сохранены в БД.
- Результаты парсинга паковать методом перемещения в архивы (без сжатия) zip/tar, по 500 мб., чтобы их можно было скачать с хостинга. Имена архивов - последовательные.
http://img-fotki.yandex.ru/get/20/ymaps.1ea/0_de0c_c766ead6_orig
http://img-fotki.yandex.ru/get/22/ymaps.1d1/0_d93e_71b89861_orig
Во вложении:
- шаблон таблицы к заполнению, с примером спарсенных изображений из Яндекс.Карты.
- скрипт парсера Яндекс.Карты.
Предыдущие тендеры-наработки.: https://www.weblancer.net/projects/330558.html
Отвечаем в заявке: — бюджет; — сроки; методика реализации; — иные комментарии.