PHP регулярка
Вытащить из страницы все внутренние и внешние ссылки и картинки
получить два массива
$links = [['href']['ankor']['title']['type']['code']['broken']]
href = адрес внутренней ссылки приведенный к абсолютному виду
ankor = анкор ссылки
title - тайтл
type - тип ссылки (внутренняя 0 или внешняя 1)
code - код ответа страницы, куда ведет ссылка.
broken - если ссылка битая, то значение 1, иначе 0.
$img = [['src']['alt']['title']['type']['code']['broken']]
все по аналогии:
src = адрес внутренней ссылки приведенный к абсолютному виду
alt = alt картинки
title - тайтл
type - тип ссылки (внутренняя 0 или внешняя 1)
code - код ответа страницы, куда ведет ссылка.
broken - если ссылка битая, то значение 1, иначе 0.
$link_rel = [['href']['rel']['type']['code']['broken']]
по аналогии все теги подключаемые - сss и другие
$script = [['src']['type']['code']['broken']]
- по аналогии скрипты java и др.
Перед парсингом картинок и внутренних ссылок удалить все теги script и закомментированное в коде.
На выходе так же получить текст страницы с замененными адресами картинок и ссылок на абсолютные.