Скрипт, собирающий список страниц сайта

Виктор13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
02.03.2015

Нужно написать PHP скрипт, который собирает список всех страниц указанного сайта.

То есть мы указываем в переменной URL сайта и должны в итоге получить список всех его страниц.

Скрипт не должен зависеть от ограничений хостинга, на котором выполняется. То есть, не должен быть сильно требовательным к оперативной памяти (128M - это нормлаьно), а если на сервере есть ограничение по времени работы скрипта, то после остановки скрипт должен перезапуститься и продолжить работу и так до тех пор, пока задача полностью не будет выполнена.

Код должен быть легко читаемым и вмеру закоментированным, чтобы можно было разобраться в нем.

Для выполнения скрипта задаются переменные:

$site - сайт, который надо спарсить. Например http://www.thule.com

$site_start - "стартовый" раздел для парсинга. То есть тот раздел, который надо спарсить. Например, http://www.thule.com/ru-ru/ru/ - парсим только раздел на русском языке.

$excludes - массив исключений. Если в УРЛе встречается одно из этих исключений, эту страницу мы не парсим. Например:

$excludes = array ("/en/", "forgottenpassword", "my-account/") - "запрещаем" для парсинга англоязычный раздел, страницу напоминания пароля и личный кабинет.

$depth - глубина "прохода" сайта при парсинге. 1 - парсим только главную страницу. 2 - проходим все страницы 2-го уровня и т.д.