Написать универсальный индексатор сайтов
Требуется написать универсальный индексатор сайтов на языке python
На входе:
Список url из текстового файла.
На выходе:
siteName – адрес сайта
pageName – адрес страницы
title – тайтл страницы
pageCount – уровень вложенности страницы (глубина страницы)
CSV файл:
siteName;pageName;title;pageCount
http://site.com;/; Главная страница; 1 (уровень вложенности)
http://site.com;/page1.html; Страница 1; 2(уровень вложенности)
Примечание:
Должен работать с различными видами путей:
Относительный: Link
Абсолютный: Link
- Убирать дубликаты страниц.
- Приводить доменное имя к виду без www
- Игнорировал ссылки типы «якорь» например:
link
Tel1
- Фильтровать ссылки на картинки, pdf файлы, видео и т.д.
- Добавлять только те страницы, которые отдает ответ 200.