Парсер содержимого сайта, которое подгружается динамически по ajax
Добрый день, уважаемые специалисты, задача следующая:
Написать скрипт (предположительно на php, curl), который будет выполнять следующие задачи:
1.
Загрузить страницу с https сайта
например
https://math-ege.sdamgia.ru/test?filter=all&category_id=6
результат: текстовая строка
(если в строку не влезет, то видимо, придется сохранить в текстовый файл на диске)
2.
Сохранить .svg-картинку с https-сайта
например
https://math-ege.sdamgia.ru/get_file?id=37466
(в url картинки указание на расширение .svg отсутствует, но по факту это .svg)
(редко вместо .svg по ссылке - .png или .jpg картинка)
результат: .svg/png/jpg-файл на диске
Судя по всему, содержимое на сайте подгружается динамически по ajax.
Страницы и картинки - в открытом доступе, авторизация на сайте для их загрузки не требуется.
Хотелось бы, чтобы скрипт выполнялся с локального сервера (а не с хостинга). У меня локально установлен OpenServer.
Если это будет не php-curl, то ТЗ будет больше: распознать (по определенной схеме, удобнее всего с использованием регулярных выражений) и сохранить порядка 7 тыс. страниц сайта (html-тексты и изображения).
(подробное ТЗ - как именно распознавать страницы - имеется).