Парсинг каталога драйверов

Сэм3 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
19.03.2022

Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.

Алгоритм скрипта:

Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта

Конвертирует файлы Sitemap.xml в CSV формат

Wget запрашивает HTML-файлы из CSV

Grep чистит HTML код от мусора (по регуляркам)

Складывает файлы на HDD

Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.

Требования:

Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний

Артефакты:

Структура Sitemap

Структура итоговых папок

Регулярные выражения для очистки от мусора

Заявки фрилансеров