Crawler для сайта

Павел17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
24.03.2011

Нужно написать (можно использовать сущ. крулеры, сайтмап генераторы или парсеры) краулер для сканирования страниц большого кол-ва страниц.

Основные требования для краулера:

1. Проходит все страницы и находит все ссылки.

2. Сканирует страницы на error, warning, notice (а также пустые страницы). Находит ошибки 404, 500, пустые страницы и т.д. (сохраняет урл источника)

3. Работает с таймаутом

4. Генерирует сайтмап (учитывает disallow в robots.txt)

5. Генерирует файл с ошибками

6. Кодировка UTF-8

Заявки фрилансеров