Составить правильный запрос к API web.archive.org

Владислав20 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

10.11.2020

Вот документация: https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#query-result-limits

Пример целевого запроса:

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original

Необходимо вывести список всех страниц сайта dmoz.org

Как я понимаю, у запроса есть лимиты. Надо обойти их.

Вроде как можно обойти лимиты добавив параметры limit и offset..

или при помощи showResumeKey= и resumeKey= ..

или при помощи page

не уверен каким образом можно.

===============

Почему-то если вывести первые 1000 строк таким запросом

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1000&offset=0

а потом сделать запрос

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1&offset=999, то результат второго запроса не будет равняться последней строке первого запроса..

почему так?

если починить, то можно спарсить все страницы можно в несколько запросов с отступами через offset

HTML