Поисковый робот на PERL

Кирилл18 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

17.06.2010

Суть такая.

1. Скрипт сборщика обязательно должен быть написан на perl в многопоточном режиме (число потоков задается в переменной)

2. Цикличный обход по ссылкам (берутся из базы данных) с контролем что по ссылке уже ходили и контролем на повторяемость ссылок в самой базе. ссылки в базе только уникальные. Цикличность бесконечная, закончил обрабатывать заданное число потоков ссылок, берет следующию порцию из базы.

3. Возможность работы скрипта через Proxy сервера в формате xxx.xxx.xxx.xxx:порт (прокси сервера берутся из таблицы базы MySQL) число используемых прокси задаётся в переменной скрипта.

4. Скрипт должен быть хорошо комментирован, дабы понимать что и как работает.

5. Подключение к базе данных MySQL прописываются в переменных скрипта.

6. Если в анализируемой странице встречаются внутренние ссылки, перед записью в базу обязательно дополнить из доменным именем сайта со страницы которую анализировали.

Параметры сервера: FreeBSD 7.2, Perl 5.10

Если необходимо до установить модули Perl автор обязуется написать версии модулей и ссылки где их брать.

MySQL