Парсер + кроулер на perl
Евгений18 років у сервісі
Дані замовника будуть вам доступні після подання заявки
17.07.2010
Нужен perl специалист
Есть один буржуйский вебсайт, это директория компаний, что-то типа желтых страниц. там несколько десятков миллионов записей
ЦЕЛЬ - начиться выуживать из этого сайта НОВЫЕ КОМАНИИ
АЛГОРИТМ который я предлагаю
1) Прокроулить весь сайт и пропарсить все нормера в базу
2) Через неледю прокрулить сайт снова и пропарсить, при этом при парсинге выделить все новые номера которых еше нет в базе - это и будут свежедобавленные компании
Возможно для выполнения задания понадобится несколько компов - с этим проблем нет, есть прокси, если они будут блокировать по IP, возможно при крулинге притворяться кем-то другим.
Я попробовал кроулить сайт телепортом, но сайт определяет IP и ругается.