Быстрый парсер на python. gevent + redis
нужны скрипты с подробной документацией
1. импорт/экспорт/чистка в редис.
при импорте идет на вход файл со значением на строку (урл, ип)
в редис попадает
хеш от значения строки - key
само значение - value
при экспорте - все значения в stdout
при чистке - очистить все.
2. сам парсер
парсер должен использовать все цпу сервера
конфиг в котором задается
- доступ к редису
- макс количество гринлетов в пуле
- путь до прокси(файл)
задача парсера
на вход парсеру идет файл с оооочень много записей (10-20-50млн)
таймаут 15 сек на отклик.
парсер создает таск который берет урл, проходит по нему и регулярками выдирает все значения по 2 условиям.
далее делает апдейт в базу redis по ключу от текущей строки и пишет что нашел в формате json или ином.
типа
имя регулярки1:значение,значение,значение
имя регулярки2:значение,значение,значение,значение,значение
цель парсера - космическая скорость и максимальная утилизация ресурсов сервера. процов много, ulimit поправлен, памяти много, диски ссд, канал гигабит.
обсуждение тз возможно и приветствуется. мне нужно быстро и много парсить. треды медленно. gevent tornado twisted celery смотрел, приглянулся первый.
пока нужно бюджетное быстрое решение для тестов.
оплата сбер-киви-вмз по факту
оставляйте контакты цены сроки, и я с вами свяжусь