Анализатор сайтов (php5, MultiCurl)
Необходимо разработать класс на основе MultiCurl для анализа сайтов.
Язык программирования: php5
Класс: http://code.google.com/p/multicurl-library/
Входные данные:
- кол-во потоков (по умолчанию 10, каждый сайт обрабатывается в один поток!)
- callback, который будет вызываться после загрузки каждой страницы!
- список сайтов, для каждого можно указать несколько параметров:
1. Глубина поиска (по умолчанию 3)
2. Максимальное кол-во внутрених ссылок на главной странице (по умолчанию 50)
3. Максимальное кол-во внутрених ссылок на других страницах (по умолчанию 10)
4. Максимальный размер страницы для загрузки (256кб по умолчанию)
После окончанию обработки сайта необходимо получить следующую информацию:
- время обработки сайта
- объем скачаных данных
- кол-во обработаных страниц
- список всех страниц: ссылка, время и объем (в том порядке, в каком они были обработаны)
- список внешних ссылок со всех страниц
Примечания:
- При анализе сайта скачивать только страницы типа text/html
- При превышении лимита размера страницы прекращать загрузку страницы, скачаные даные все равно отдаются на обработку (поиск ссылок и вызов callback'а)
Более подробное описание при личном общении (icq / email / лс)
Код должен быть красивым и лаконичным :)
Оплата wmz