Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Вот документация: https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#query-result-limits

Пример целевого запроса:

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original

Необходимо вывести список всех страниц сайта dmoz.org

Как я понимаю, у запроса есть лимиты. Надо обойти их.

Вроде как можно обойти лимиты добавив параметры limit и offset.. 

или при помощи showResumeKey= и resumeKey= ..

или при помощи page 

не уверен каким образом можно.

===============

Почему-то если вывести первые 1000 строк таким запросом

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1000&offset=0

а потом сделать запрос 

http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1&offset=999, то результат второго запроса не будет равняться последней строке первого запроса..

почему так?

если починить, то можно спарсить все страницы можно в несколько запросов с отступами через offset 

3 года назад
Extazy
35 летЭстония
18 лет в сервисе
Был
9 месяцев назад