Парсинг каталога драйверов
Сэм3 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
19.03.2022
Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.
Алгоритм скрипта:
Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта
Конвертирует файлы Sitemap.xml в CSV формат
Wget запрашивает HTML-файлы из CSV
Grep чистит HTML код от мусора (по регуляркам)
Складывает файлы на HDD
Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.
Требования:
Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний
Артефакты:
Структура Sitemap
Структура итоговых папок
Регулярные выражения для очистки от мусора