Задача для специалиста по регуляркам и парсингу
на вход дается easylist-downloads.adblockplus.org/easylist.txt и длинный список урлов, вида http://url.com/folder/ на строку.
многопоточно проходим список урлов, и на каждой странице которая ответила, ищем рекламный блок который бы был заблокирован адблоком.
находим и сохраняем в базу в виде урл и тело рекламного блока, в разных полях. если на странице найдено несколько блоков - сохранем несколько. до 10 блоков к урлу
цель парсинга собрать валидные хтмл рекламные блоки которые начинаются и заканчиваются на
если скрипт нашел вхождение из листа но не опознал хтмл блоки - урл кинуть в отдельный лог.
язык реализации - любой удобный, предпочтительно питон. мне не критично. на питоне есть готовое решение с тредами, для облегчения задачи.
БД мускуль
оплата вебмани вмз
связь
ася 193*0184–65
антиспам google
пишите ваши контакты, сроки и цену