Многопоточный сканер тайтлов

Пушнов15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
11.10.2012

Консольный скрипт на пайтоне (желательно 3, но не обязательно) получает два аргумента:

1) файл с урлами для сканирования (1 00 000 - 1 000 0000 )

2) маска

Скрипт стартует Х потоков и контролирует в цикле, чтобы количество потоков не превышало лимит.

Каждый поток выполняет функцию по коннекту к урлу, экстрагирование тайтла и проверку последнего на маску, если совпадение True, пишет в файл лога аутпут в виде:

{URL:} TITLE:{title}

Все очень просто, но должно быть реализовано без либ requests, и lxml, т.к. комбинация последних почему-то делает много false positive и пропусков, заниматься и отлаживать нет времени, посему ищу человека для этой задачи.

Основные цели: добится максимальной скорости и точности.

Фреймворк twisted приветствуется