Crawler для сайта
Павел17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
24.03.2011
Нужно написать (можно использовать сущ. крулеры, сайтмап генераторы или парсеры) краулер для сканирования страниц большого кол-ва страниц.
Основные требования для краулера:
1. Проходит все страницы и находит все ссылки.
2. Сканирует страницы на error, warning, notice (а также пустые страницы). Находит ошибки 404, 500, пустые страницы и т.д. (сохраняет урл источника)
3. Работает с таймаутом
4. Генерирует сайтмап (учитывает disallow в robots.txt)
5. Генерирует файл с ошибками
6. Кодировка UTF-8