Многопоточный парсер онлайн-сервиса

Игорь12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
05.09.2014

Язык – обязательно Python (нужна нормальная многопоточность + кросс операционность + web)

Урлы по которым надо парсить – содержат в теле страницы iframe, также при парсинге отдаются динамические параметры ("соль" или "seed", пример: "&hash=eHrkNqlN" ) – нужно с этим грамотно работать уметь.

Нужна:

- многопоточность,

- прокси

- смена user-agent

- и если понадобится – то обработка капчи.

Входные данные в скрипт:

- список урлов для парсинга

- Прокси (берутся из файла "proxy.txt").

- user-agent (берутся из файла "user_agent.txt")

Выходные данные (тело страницы) сохраняются в SQLite базу данных. Ее формат (всего два столбца):

- id(auto increment)

- result_data (данные которые мы получили в ответе)

Настройки:

- диапазон для рандомной задержки каждого потока (от и до). например от 5 до 15 сек.

- количество одновременных потоков

- что использовать: прокси ИЛИ основной IP.

Желательно применять в разработке docs.python-requests.org/... и его расширение grequests для многопоточности, НО конечное решение что использовать – за Вами.

Итак, сколько понадобится для данного задания денег и сколько это займет по времени?

P.S. после выполнения этого задания нужно будет сделать html-интерфейс. Под это будет отдельное ТЗ и оплата. Поэтому ищу человека, кто в состоянии КАЧЕСТВЕННО (!) сделать первый этап. А если сможет потом и второй этап – будет очень хорошо.

Пишите стоимость и срок. Я выберу.