Сделать паука и оббежать ~40000 сайтов
Задача следующая: есть список из примерно сорока тысяч сайтов. Надо оббежать их по следующему алгоритму:
1) берем сайт из списка. Идем к нему на морду. На морде смотрим 20 ссылок ведущих внутрь тогоже самого домена(!). Лучше двигаться по коду сверху вниз. Результат - 21 случайная страница сайта.
2) Начинаем оббегать эти страницы и ищем на них объекты размером 300*600. Совершено все равно что это именно такое. картинка, фрейм, флешка - лишь бы 300 на 600. Тут потребуется минимальное знание или готовность сделать небольшой анализ на предмет найти в коде упоминание 300 и 600 неподалку друг от друга.
3) если такой объект найден, то конкретный УРЛ где найден откладываем в сторону с пометкой в таком виде: "domain.com \ domainc.com/etot-url.html \ кусок кода где 300 на 600 встретилось (скажем из размеров картинки)"
с одного домена нужна только одна такая страница. То есть если скажем прямо на морде нашелся требуемого размера объект - все, остальные страницы оббегать не надо.
Как только (и если) нашли 3000 таких УРЛов с 300*600 объектами - все, останавливаем процесс. Результатом должен быть список оббеганых урлов и список удовлетворяющих условиям согласно примеру ниже. Формат отчета - CSV читаемый экселем. Можно просто xls прислать.
Вопросы, буде таковые появятся, лучше всего отсавлять в имейл указаный тут http://www.weblancer.net/users/Mauser/ в профайле. самый простой способ получить работу как водится просто напросто сделать ее. если волнуетесь насчет времени требуемого на скан - просто пришлите уведомление что паук уже трудится и пример его трудов. Список сайтов для оббега тут приколот
Непременно указывайте сколько времени займет вся процедура! То есть до момента показа отчета.