Есть файл vcf с приблизительно таким содержимым BEGIN:VCARD VERSION:2.1 N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=D0=A1=D1=8B=D0=BD=D1=83=D0=BB=D1=8C=D0=BA=D0=B0;;; FN;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:=D0=A1=D1=8B=D0=BD=D1=83=D0=BB=D1=8C=D0=BA=D0=B0 TEL;CELL:89060338833 END:VCARD где-то есть доп поля необходимо распарсить, удалить дубликаты и собрать обратно в приведенном формате, без лишних полей
Многопоточный парсер онлайн-сервиса
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.
Добрый день!
Язык – обязательно Python (нужна нормальная многопоточность + кросс операционность + web)
Урлы по которым надо парсить – содержат в теле страницы iframe, также при парсинге отдаются динамические параметры ("соль" или "seed", пример: "&hash=eHrkNqlN" ) – нужно с этим грамотно работать уметь.
Нужна:
- многопоточность,
- прокси
- смена user-agent
- и если понадобится – то обработка капчи.
Входные данные в скрипт:
- список урлов для парсинга
- Прокси (берутся из файла "proxy.txt").
- user-agent (берутся из файла "user_agent.txt")
Выходные данные (тело страницы) сохраняются в SQLite базу данных. Ее формат (всего два столбца):
- id(auto increment)
- result_data (данные которые мы получили в ответе)
Настройки:
- диапазон для рандомной задержки каждого потока (от и до). например от 5 до 15 сек.
- количество одновременных потоков
- что использовать: прокси ИЛИ основной IP.
Желательно применять в разработке http://docs.python-requests.org/en/latest/ и его расширение grequests для многопоточности, НО конечное решение что использовать – за Вами.
Итак, сколько понадобится для данного задания денег и сколько это займет по времени?
P.S. после выполнения этого задания нужно будет сделать html-интерфейс. Под это будет отдельное ТЗ и оплата. Поэтому ищу человека, кто в состоянии КАЧЕСТВЕННО (!) сделать первый этап. А если сможет потом и второй этап – будет очень хорошо.
Оплата только после выполнения проекта.
- Похожие заказы
- Прикладное ПОнет заявокЗакрыт10 лет назад
- $250
Кто возьмётся написать торрент клиент и трекер, чтобы он работал как часы. Так как при работе например с торрент клиентом aria2 и трекером http://tracker.openbittorrent.com:80/announce возникали случаи, когда раздача стоит, а качать не качает. Торрет клиент ...
Прикладное ПО4 заявкиЗакрыт10 лет назад - $700
Разработать desktop приложение караоке для сенсорного экрана , для инфокиоска с вебкамерой, под Windows 7 или 8, описание по ссылке: http://download.alesko.eu/karaoke.doc Дизайн готов, нужны сроки, для дальнейшего обсуждения деталей
Прикладное ПО1 исполнительЗакрыт10 лет назад - $1000
Необходимо разработать десктопное приложение(браузер) За основу можно взять, или Awesomium render, или cef, или что-то аналогичное. Подробное ТЗ при личном общении. Бюджет ОТ 20000 руб.(обсуждаем) Требования к софту: https://docs.google.com/document/d/1f3OSb9XuzvYqDGhW5EoPFCItzqIkTrnEKvmbwKUJBY0/edit?usp=sharing Перед откликом на проект, ...
Прикладное ПО7 заявокЗакрыт10 лет назад - $2500
Требуется доработать какую-нибудь опенсурсную CRM для нужд агентства недвижимости (например vtigerCRM или A-number). Важны цена и сроки. Недорогое готовое решение тоже рассматривается. CRM может быть облачной или Десктопной. Программа обязательно должна уметь выгружать ...
Прикладное ПО1 исполнительЗавершен10 лет назад Здравствуйте! Необходимо сделать программу либо плагин для браузера. Суть в чем: запускаем программу/плагин (она например берет за основу браузер internet explorer) и открывается определенный сайт. На это сайте есть много блоков, которые построены по одинаковому принципу (в ...
Прикладное ПО4 заявкиЗакрыт10 лет назад- $1000
Необходимо написать программный продукт, который позволит осуществлять автоматическую покупку игровых предметов в рамках торговой площадки "Steam". Подробности в ЛС.
Прикладное ПО10 заявокЗакрыт10 лет назад Необходимо написать бота для рулетки онлайн казино. Казино на платформе «PlayTech» Параметры и настройки, которые хотелось бы видеть при личной переписке.
Прикладное ПО6 заявокЗакрыт10 лет назад- $500
Необходимо выполнить перенос дизайна из html в asp (aspx). На входе файлы html около 20шт. Смотрим, анализируем, кодим. От меня : фтп с файлами, онлайн связь и помощь специалиста по техническим вопросам, соответственно деньги. От ...
Прикладное ПО2 заявкиЗакрыт10 лет назад - $20
Требуется программа (скрипт, должно работать с сервера) для чека через XML параметра "количество проиндексированных страниц в яндексе для домена". Ключ предоставлю функционал: окошко ввода ключа и доменов, кнопка экспорта результатов в excell (должно работать на ...
Прикладное ПО1 заявкаЗакрыт10 лет назад