Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

нужны скрипты с подробной документацией

1. импорт/экспорт/чистка в редис.

при импорте идет на вход файл со значением на строку (урл, ип)

в редис попадает

хеш от значения строки - key

само значение - value

при экспорте - все значения в stdout

при чистке - очистить все.

2. сам парсер

парсер должен использовать все цпу сервера

конфиг в котором задается

- доступ к редису

- макс количество гринлетов в пуле

- путь до прокси(файл)

задача парсера

на вход парсеру идет файл с оооочень много записей (10-20-50млн)

таймаут 15 сек на отклик.

парсер создает таск который берет урл, проходит по нему и регулярками выдирает все значения по 2 условиям.

далее делает апдейт в базу redis по ключу от текущей строки и пишет что нашел в формате json или ином.

типа

имя регулярки1:значение,значение,значение

имя регулярки2:значение,значение,значение,значение,значение

цель парсера - космическая скорость и максимальная утилизация ресурсов сервера. процов много, ulimit поправлен, памяти много, диски ссд, канал гигабит.

обсуждение тз возможно и приветствуется. мне нужно быстро и много парсить. треды медленно. gevent tornado twisted celery смотрел, приглянулся первый.

пока нужно бюджетное быстрое решение для тестов.

оплата сбер-киви-вмз по факту

оставляйте контакты цены сроки, и я с вами свяжусь

10 лет назад
Blinter
Михаил 
41 годРоссия
17 лет в сервисе
Была
8 лет назад