Сделать паука и оббежать ~40000 сайтов

Тер18 років у сервісі
Дані замовника будуть вам доступні після подання заявки
29.03.2010

Задача следующая: есть список из примерно сорока тысяч сайтов. Надо оббежать их по следующему алгоритму:

1) берем сайт из списка. Идем к нему на морду. На морде смотрим 20 ссылок ведущих внутрь тогоже самого домена(!). Лучше двигаться по коду сверху вниз. Результат - 21 случайная страница сайта.

2) Начинаем оббегать эти страницы и ищем на них объекты размером 300*600. Совершено все равно что это именно такое. картинка, фрейм, флешка - лишь бы 300 на 600. Тут потребуется минимальное знание или готовность сделать небольшой анализ на предмет найти в коде упоминание 300 и 600 неподалку друг от друга.

3) если такой объект найден, то конкретный УРЛ где найден откладываем в сторону с пометкой в таком виде: "domain.com \ domainc.com/etot-url.html \ кусок кода где 300 на 600 встретилось (скажем из размеров картинки)"

с одного домена нужна только одна такая страница. То есть если скажем прямо на морде нашелся требуемого размера объект - все, остальные страницы оббегать не надо.

Как только (и если) нашли 3000 таких УРЛов с 300*600 объектами - все, останавливаем процесс. Результатом должен быть список оббеганых урлов и список удовлетворяющих условиям согласно примеру ниже. Формат отчета - CSV читаемый экселем. Можно просто xls прислать.

Вопросы, буде таковые появятся, лучше всего отсавлять в имейл указаный тут http://www.weblancer.net/users/Mauser/ в профайле. самый простой способ получить работу как водится просто напросто сделать ее. если волнуетесь насчет времени требуемого на скан - просто пришлите уведомление что паук уже трудится и пример его трудов. Список сайтов для оббега тут приколот

Непременно указывайте сколько времени займет вся процедура! То есть до момента показа отчета.

Заявки фрілансерів