Составить правильный запрос к API web.archive.org
Вот документация: https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#query-result-limits
Пример целевого запроса:
http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original
Необходимо вывести список всех страниц сайта dmoz.org
Как я понимаю, у запроса есть лимиты. Надо обойти их.
Вроде как можно обойти лимиты добавив параметры limit и offset..
или при помощи showResumeKey= и resumeKey= ..
или при помощи page
не уверен каким образом можно.
===============
Почему-то если вывести первые 1000 строк таким запросом
http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1000&offset=0
а потом сделать запрос
http://web.archive.org/cdx/search/cdx?url=*.dmoz.org/*&output=txt&filter=statuscode:200&filter=mimetype:text/html&fl=timestamp,original&limit=1&offset=999, то результат второго запроса не будет равняться последней строке первого запроса..
почему так?
если починить, то можно спарсить все страницы можно в несколько запросов с отступами через offset