Многопоточный парсер онлайн-сервиса
Язык – обязательно Python (нужна нормальная многопоточность + кросс операционность + web)
Урлы по которым надо парсить – содержат в теле страницы iframe, также при парсинге отдаются динамические параметры ("соль" или "seed", пример: "&hash=eHrkNqlN" ) – нужно с этим грамотно работать уметь.
Нужна:
- многопоточность,
- прокси
- смена user-agent
- и если понадобится – то обработка капчи.
Входные данные в скрипт:
- список урлов для парсинга
- Прокси (берутся из файла "proxy.txt").
- user-agent (берутся из файла "user_agent.txt")
Выходные данные (тело страницы) сохраняются в SQLite базу данных. Ее формат (всего два столбца):
- id(auto increment)
- result_data (данные которые мы получили в ответе)
Настройки:
- диапазон для рандомной задержки каждого потока (от и до). например от 5 до 15 сек.
- количество одновременных потоков
- что использовать: прокси ИЛИ основной IP.
Желательно применять в разработке docs.python-requests.org/... и его расширение grequests для многопоточности, НО конечное решение что использовать – за Вами.
Итак, сколько понадобится для данного задания денег и сколько это займет по времени?
P.S. после выполнения этого задания нужно будет сделать html-интерфейс. Под это будет отдельное ТЗ и оплата. Поэтому ищу человека, кто в состоянии КАЧЕСТВЕННО (!) сделать первый этап. А если сможет потом и второй этап – будет очень хорошо.
Пишите стоимость и срок. Я выберу.