Парсер содержимого сайта, которое подгружается динамически по ajax

Дмитрий15 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

27.03.2019

Добрый день, уважаемые специалисты, задача следующая:

Написать скрипт (предположительно на php, curl), который будет выполнять следующие задачи:

Загрузить страницу с https сайта

например

https://math-ege.sdamgia.ru/test?filter=all&category_id=6

результат: текстовая строка

(если в строку не влезет, то видимо, придется сохранить в текстовый файл на диске)

Сохранить .svg-картинку с https-сайта

например

https://math-ege.sdamgia.ru/get_file?id=37466

(в url картинки указание на расширение .svg отсутствует, но по факту это .svg)

(редко вместо .svg по ссылке - .png или .jpg картинка)

результат: .svg/png/jpg-файл на диске

Судя по всему, содержимое на сайте подгружается динамически по ajax.

Страницы и картинки - в открытом доступе, авторизация на сайте для их загрузки не требуется.

Хотелось бы, чтобы скрипт выполнялся с локального сервера (а не с хостинга). У меня локально установлен OpenServer.

Если это будет не php-curl, то ТЗ будет больше: распознать (по определенной схеме, удобнее всего с использованием регулярных выражений) и сохранить порядка 7 тыс. страниц сайта (html-тексты и изображения).

(подробное ТЗ - как именно распознавать страницы - имеется).

AJAX HTML PHP

Парсер содержимого сайта, которое подгружается динамически по ajax

Заявки фрилансеров