Поисковый робот на PERL
Суть такая.
1. Скрипт сборщика обязательно должен быть написан на perl в многопоточном режиме (число потоков задается в переменной)
2. Цикличный обход по ссылкам (берутся из базы данных) с контролем что по ссылке уже ходили и контролем на повторяемость ссылок в самой базе. ссылки в базе только уникальные. Цикличность бесконечная, закончил обрабатывать заданное число потоков ссылок, берет следующию порцию из базы.
3. Возможность работы скрипта через Proxy сервера в формате xxx.xxx.xxx.xxx:порт (прокси сервера берутся из таблицы базы MySQL) число используемых прокси задаётся в переменной скрипта.
4. Скрипт должен быть хорошо комментирован, дабы понимать что и как работает.
5. Подключение к базе данных MySQL прописываются в переменных скрипта.
6. Если в анализируемой странице встречаются внутренние ссылки, перед записью в базу обязательно дополнить из доменным именем сайта со страницы которую анализировали.
Параметры сервера: FreeBSD 7.2, Perl 5.10
Если необходимо до установить модули Perl автор обязуется написать версии модулей и ссылки где их брать.