Разработка скрипта для копирования сайтов из Web Archive

Мгер6 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

26.06.2025

Что нужно:

Разработать скрипт (Python или другой удобный язык), который сможет восстановить сайт по URL из Web Archive (https://web.archive.org/) — аналогично тому, как это делает Archivarix.

Основные требования:

Ввод: URL сайта и timestamp (например, https://web.archive.org/web/20240101123456/https://example.com/)
Скрипт:
- получает список всех доступных страниц и файлов (html, css, js, изображения и т.д.)
- скачивает и сохраняет структуру сайта (как минимум HTML, CSS, JS, PNG, JPG, SVG, WebP и т.д.)
- сохраняет файлы с исходной структурой (например, /about/index.html, /assets/style.css)
- очищает HTML-файлы от следов archive.org (toolbar, лишние скрипты, переадресации и т.д.)
- делает относительные ссылки внутри HTML (если это возможно)
Вывод: папка с готовым HTML-сайтом, пригодная для локального или серверного запуска

Опционально:

Поддержка sitemap.xml генерации
Возможность фильтрации по типу файлов
Обработка ошибок и повторная загрузка при 404/403

Важно:

Скрипт должен быть автономным (никаких GUI)
Без сторонних сервисов (всё напрямую с web.archive.org)
Поддержка Linux/macOS

Бюджет:

Укажите сами (жду ваших предложений). Готов работать по фиксированной цене.

Ожидаемый результат:

Рабочий скрипт
Инструкция по запуску
Пример работы (желательно восстановить небольшой сайт из архива и показать структуру пример сайта https://web.archive.org/web/20250316061145/https://www.sydneybrickshow.com.au/)

Python Восстановление сайтов Написание скриптов Настройка сайтов Установка скриптов