Написать универсальный индексатор сайтов

Александр17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
05.07.2014

Требуется написать универсальный индексатор сайтов на языке python

На входе:

Список url из текстового файла.

На выходе:

siteName – адрес сайта

pageName – адрес страницы

title – тайтл страницы

pageCount – уровень вложенности страницы (глубина страницы)

CSV файл:

siteName;pageName;title;pageCount

http://site.com;/; Главная страница; 1 (уровень вложенности)

http://site.com;/page1.html; Страница 1; 2(уровень вложенности)

Примечание:

Должен работать с различными видами путей:

Относительный: Link

Абсолютный: Link

- Убирать дубликаты страниц.

- Приводить доменное имя к виду без www

- Игнорировал ссылки типы «якорь» например:

link

Tel1

- Фильтровать ссылки на картинки, pdf файлы, видео и т.д.

- Добавлять только те страницы, которые отдает ответ 200.

Заявки фрилансеров