Фукнция парсинга категориальной структуры сайта
Необходима функция, которая парсит сайт и при этом сохраняет в базе данных его категориальную структуру. То есть записи БД будут иметь следующий формат:
ID URL страницы URL родительской страницы
Идентификация структуры может проходить либо по структурам URLов сайта - например:
В данном случае site.ru/papka/doc1 является подстраницей site.ru/papka.
Также должна быть возможность вместо использования структуры в качестве базиса идентификации категорий, использовать маркеры для определения родительских страниц (маркер - это кусок кода на странице, который может включать название категории). Например, на блоге на вордпресс с ЧПУ вида blog.ru/postname - это может быть код, в котором заключено название категории.
Также будут приветствоваться и поощряться любые советы в оптимизации алгоритма.
p.s. желательно сотрудничество с человеком, у которого уже есть готовые решения.
p.p.s. базовые функции для получения контента со страницы, а также сбора внутренних ссылок я предоставлю (просто функции уже отлажены, поэтому настаиваю именно на их использовании)