Достать данные с помощью Сommоn Crawl
Есть такие статьи: https://habrahabr.ru/post/268205/
http://commoncrawl.org/the-data/examples/
Требуется:
1й этап: сделать выборку из главных страниц сайтов на всех .com, .net, .org, .info доменах из базы CC, которые содержат определенное регулярное выражение.
Проверять буду так: уже есть база сайтов, которые содержат нужное выражение. Все мои сайты должны попасть в вашу выборку + в выборке должна быть еще куча таких сайтов. На этом этапе мне нужны только данные.
2й этап: задокументировать вашу систему, так чтобы системный администратор среднего уровня мог по вашим инструкциям заново всё развернуть, настроить нужную регулярку, запустить сбор, получить результат - список сайтов.
Оплата поэтапно, только безопасная сделка, по сделке на этап. Пишите, пожалуйста, цены и сроки.