Извлечение текста из произвольной хтмл страницы
Требуется PHP скрипт который позволит извлекать "значимый" текст(контент) из хтмл страницы произвольной структуры. Под значимым текстом подразумевается основное информационное наполнение страницы, исключая навигационные ссылки, копирайты и тп. Как вариант, можно рассмотреть любую новостную страниц (например, http://www.lenta.ru/news/2009/03/02/mobileweb/ или http://hitech.newsru.com/article/27Feb2009/iphoninjp)
Текст новости должен выбиратся не по шаблону, а используя т.н. data mining. Как вариант, могу предложить след алгоритм:
1. страница очищается от служебной информации (комменты, скрипты и тп)
2. страница разбивается на параграфы использую
,
, и прочии возможные тэги
3. анализируется соотношение плотности тэгов и плотности текста
4. отсекается та часть, где плотность тэгов слишком высока (скорее всего это навигационная и прочая информация)
Возможны и другие способы. Не требуется 100% точность извлечения информации, однако, требуется достаточная точность для дальнейшей каталогизации страниц.
Просьба писать тем, что кто имеет опыт решения подобных задач.