Что нужно:

Разработать скрипт (Python или другой удобный язык), который сможет восстановить сайт по URL из Web Archive (https://web.archive.org/) — аналогично тому, как это делает Archivarix.

Основные требования:
  • Ввод: URL сайта и timestamp (например, https://web.archive.org/web/20240101123456/https://example.com/)

  • Скрипт:

    • получает список всех доступных страниц и файлов (html, css, js, изображения и т.д.)

    • скачивает и сохраняет структуру сайта (как минимум HTML, CSS, JS, PNG, JPG, SVG, WebP и т.д.)

    • сохраняет файлы с исходной структурой (например, /about/index.html, /assets/style.css)

    • очищает HTML-файлы от следов archive.org (toolbar, лишние скрипты, переадресации и т.д.)

    • делает относительные ссылки внутри HTML (если это возможно)

  • Вывод: папка с готовым HTML-сайтом, пригодная для локального или серверного запуска

Опционально:
  • Поддержка sitemap.xml генерации

  • Возможность фильтрации по типу файлов

  • Обработка ошибок и повторная загрузка при 404/403

Важно:
  • Скрипт должен быть автономным (никаких GUI)

  • Без сторонних сервисов (всё напрямую с web.archive.org)

  • Поддержка Linux/macOS

Бюджет:

Укажите сами (жду ваших предложений). Готов работать по фиксированной цене.

Ожидаемый результат:
день назад
Мгер
 
26 лет
6 лет в сервисе
Был
4 часа назад
3 отзыва

Заявки фрилансеров

Максим
 
23 года
3 года в сервисе
Был
25 минут назад
16 часов назад
Миста
 
27 лет
год в сервисе
Был
час назад
день назад
Андрей
 
36 лет
17 лет в сервисе
Был
3 часа назад
1 отзыв
день назад
Ярослав
 
25 лет
9 дней в сервисе
Был
12 часов назад
день назад