Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Всем привет.

В общих чертах необходим скрипт для парсинга определенных результатов с https://web.archive.org.

1. Скрипт может быть как консольным, или под web, под ваше усмотрение.

2. На вход скрипта подается текстовый документ с доменами(разделитель - новая строка), для которых нужно получить результаты. Скрипт должен "проглатывать" cписок с несколькими тысячами строк. Скрипт поочередно делает запрос для каждого домена из списка и формирует в конце работы отчет.

3. Результаты нужны только с запроса вида https://web.archive.org/web/*/https://домен.ру/* и только.

4. Скрипт должен уметь фильтровать выдачу только под интересующие нас типа файлов - .txt, .php, html, jsp и так далее. Полный список интересующих расширений для фильтра я предоставлю, если возьметесь. Их будет около 30 штук. Задать необходимый тип или типы файлов, для которых мы хотим получить результаты, можно на этапе формирования запроса.

5. Результатом работы скрипта должен быть текстовый документ(разделитель - новая строка) с полученными записями с https://web.archive.org.

Язык разработки на ваш выбор. Главное стабильность, скорость работы/фичи тип распараллеливания запросов скрипта будет преимуществом, за который я готов доплатить, но возможно скорость будет ограничена api сервиса web.archive.org.

Пример: https://github.com/ghostlulzhacks/waybackMachine

На гитхабе вообще много реализаций, но ни один не работает именно со списком доменов(что самое важное и главное для меня) и зачастую имеет избыточный функционал.

Готов также обсудить бюджет, если это реализуемо и вы возьметесь за разработку.

Спасибо.

4 года назад
guest_15919598557287
4 года в сервисе
Был
4 года назад
Выбранный исполнитель
veesorg
Виктор 
30 летМолдова
4 года в сервисе
Был
4 года назад
3 отзыва
4 года назад
$100
4 дня
Отзыв недоступен.
По этому заказу не оплачена комиссия сервиса!