Разработка скрипта для копирования сайтов из Web Archive
Что нужно:
Разработать скрипт (Python или другой удобный язык), который сможет восстановить сайт по URL из Web Archive (https://web.archive.org/) — аналогично тому, как это делает Archivarix.
Основные требования:Ввод:
URL сайта
иtimestamp
(например,https://web.archive.org/web/20240101123456/https://example.com/
)Скрипт:
получает список всех доступных страниц и файлов (html, css, js, изображения и т.д.)
скачивает и сохраняет структуру сайта (как минимум HTML, CSS, JS, PNG, JPG, SVG, WebP и т.д.)
сохраняет файлы с исходной структурой (например,
/about/index.html
,/assets/style.css
)очищает HTML-файлы от следов
archive.org
(toolbar, лишние скрипты, переадресации и т.д.)делает относительные ссылки внутри HTML (если это возможно)
Вывод: папка с готовым HTML-сайтом, пригодная для локального или серверного запуска
Поддержка sitemap.xml генерации
Возможность фильтрации по типу файлов
Обработка ошибок и повторная загрузка при 404/403
Скрипт должен быть автономным (никаких GUI)
Без сторонних сервисов (всё напрямую с web.archive.org)
Поддержка Linux/macOS
Укажите сами (жду ваших предложений). Готов работать по фиксированной цене.
Ожидаемый результат:Рабочий скрипт
Инструкция по запуску
Пример работы (желательно восстановить небольшой сайт из архива и показать структуру пример сайта https://web.archive.org/web/20250316061145/https://www.sydneybrickshow.com.au/)
Заявки фрилансеров
