Скрипт, собирающий список страниц сайта
Нужно написать PHP скрипт, который собирает список всех страниц указанного сайта.
То есть мы указываем в переменной URL сайта и должны в итоге получить список всех его страниц.
Скрипт не должен зависеть от ограничений хостинга, на котором выполняется. То есть, не должен быть сильно требовательным к оперативной памяти (128M - это нормлаьно), а если на сервере есть ограничение по времени работы скрипта, то после остановки скрипт должен перезапуститься и продолжить работу и так до тех пор, пока задача полностью не будет выполнена.
Код должен быть легко читаемым и вмеру закоментированным, чтобы можно было разобраться в нем.
Для выполнения скрипта задаются переменные:
$site - сайт, который надо спарсить. Например http://www.thule.com
$site_start - "стартовый" раздел для парсинга. То есть тот раздел, который надо спарсить. Например, http://www.thule.com/ru-ru/ru/ - парсим только раздел на русском языке.
$excludes - массив исключений. Если в УРЛе встречается одно из этих исключений, эту страницу мы не парсим. Например:
$excludes = array ("/en/", "forgottenpassword", "my-account/") - "запрещаем" для парсинга англоязычный раздел, страницу напоминания пароля и личный кабинет.
$depth - глубина "прохода" сайта при парсинге. 1 - парсим только главную страницу. 2 - проходим все страницы 2-го уровня и т.д.