Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

https://www.weblancer.net/projects/722241.html

Это изначальный проект.

Его модернизированный вариант - ниже.

Интересует Ваша оценка.

Имеется список адресов зданий по г. Москва и МО в виде таблицы формата csv/xls.

Строк примерно около 400 000. Уникальных адресов примерно 150000. 

Задача — собрать для адресов приведенных в списке фотографии из БД Google.Maps, Яндекс.Карт и сервиса gdeetotdom.ru 1-5 фото из каждого источника, если есть фото.

По Яндекс/Google - собрать ПАНОРАМЫ этих же строений, если они имеются. Процент корректного ракурса должен быть не ниже 70%. Это значит, что здание видно не менее чем на 70% на сделанном скриншоте.

Разрешение изображений до 3000 пикселей по ширине/ высоте, исходные изображения, без обработки, в формате JPG.

Именование полученных изображений, через запятую надо вставить в таблицу xls в ту же строку (если их несколько), ячейку рядом с адресом. Для большей разборчивости если фотографии по нескольким источникам, разделить источники по столбцам и в них прописать имена сохраненных изображений. 

Сами изображения сохранить локально в папку, с уникальными унифицированными именами (адрес объекта латиницей) и тегами (Panorama_, YM - яндекс, GM - google, GED – гдеэтотдом), форматом .jpg

Пример: Panorama_YM_Bol.Afanasievskiy_per_5.jpg 

Функционал:

возможность выбрать источник прогона парсера (Яндекс, Google, гдеэтотдом или всё сразу) и тип (карты-панорамы);

кол-во изображений в ячейке к записи (по достижении которого переходим к следующей строке в списке адресов);

настройка прокси-листа (желательно, чтобы авто-поиск и вставка осуществлялась, как вhttp://kolchaka.net/parsery/x-parser-pro/); кол-во потоков (1-~);

Все имена файлов должны быть уникальны, а так же совпадать в случае, если тот же адрес будет парситься через неделю, а в БД уже есть эти изображения, то имя будет опять такое же, чтобы избежать повторного парсинга, отработка происходит локально, подстановкой нужного имени.

Возможность запуска на хостинге или через WAMP/LAMP, локально.

Возможность продолжения парсинга с остановленного места. Запоминание промежуточных результатов, с подстановкой по тому же адресу готовых результатов, если они ранее уже были получены и сохранены в БД.

Результаты парсинга паковать методом перемещения в архивы (без сжатия) zip/tar, по 500 мб., чтобы их можно было скачать с хостинга. Имена архивов - последовательные.

Пример изображений (это ЯК, не панорамы): 

http://img-fotki.yandex.ru/get/20/ymaps.1ea/0_de0c_c766ead6_orig

http://img-fotki.yandex.ru/get/22/ymaps.1d1/0_d93e_71b89861_orig

P.S. 

1) Должна быть также возможность парсить не только по наименованиям улиц и номерам домов, но также по координатам (пара чисел). 

Т.е. предусмотреть выбор. 

2) Помимо парсинга фотографий, нужно парсить наименования ближайших станций метро и расстояний до них. 

Считаем, что максимум объект может быть вблизи 3-х станций. 

Т.е. нужно 3 пары столбцов. 

1) название станции метро 1; 

2) расстояние до станции метро1 (метров). 

3) название станции метро 2; 

4) расстояние до станции метро2 (метров). 

5) название станции метро 3; 

6) расстояние до станции метро3 (метров). 

Столбцы 1 и 2 – обязательны. 3 – 6 – при возможности. 

по координатам помимо заявленного спарсить еще и адрес (город, улица, номер дома – в отдельных столбцах) 

Строк примерно около 400 000. Уникальных адресов примерно 150000.

Насчет условия про 70% на панораме - условие крайне желательное, но необязательное. Возможно доп. финансирование под эту функцию.

Во вложении:

- шаблон таблицы к заполнению, с примером спарсенных изображений из Яндекс.Карты.

- скрипт парсера Яндекс.Карты. 

Предыдущие тендеры-наработки.: https://www.weblancer.net/projects/330558.html

Отвечаем в заявке: — бюджет; — сроки; методика реализации; — иные комментарии.

Оплату гарантирует мой партнер - https://www.weblancer.net/users/5050482/reviews/

8 лет назад
MegaMozg169
Владимир 
43 годаРоссия
13 лет в сервисе
Был
6 лет назад