Многопоточный сканер тайтлов
Консольный скрипт на пайтоне (желательно 3, но не обязательно) получает два аргумента:
1) файл с урлами для сканирования (1 00 000 - 1 000 0000 )
2) маска
Скрипт стартует Х потоков и контролирует в цикле, чтобы количество потоков не превышало лимит.
Каждый поток выполняет функцию по коннекту к урлу, экстрагирование тайтла и проверку последнего на маску, если совпадение True, пишет в файл лога аутпут в виде:
{URL:} TITLE:{title}
Все очень просто, но должно быть реализовано без либ requests, и lxml, т.к. комбинация последних почему-то делает много false positive и пропусков, заниматься и отлаживать нет времени, посему ищу человека для этой задачи.
Основные цели: добится максимальной скорости и точности.
Фреймворк twisted приветствуется