Нужен скрипт для поиска и вывода ключеых слов

Константин18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
14.06.2012

Есть сайт-библиотека, на котором расположены книги. Чтение книг происходит только на страницах вида:

http://www.site.ru/view/123/123

Ваш скрипт будет вставляться во все страницы сайта, но работать он должен только на страницах с чтением книг, то есть там где в урле есть.../view/...

Скрипт должен проанализировать страницу, без учета меню, только текст книги, вычислить ключевые слова этого текста, сохранить их в ТХТ базе и выдать на старинце.

По сохранению: ключевые слова должны сохраняться в ТХТ файле, использовать БД не надо

По выдаче: ключевые слова выдаются в одну строку, через запятую, перед строкой с ключевыми словами стоит текст: "Ключевые слова:"

По ключевым словам: 1) ключевое слово - это словосочетание 3 или 4 идущих подряд значимых слов. Значимые слова - это слова от 4 и более букв в слове. Допустимо чтобы среди 3 или 4 значимых слов будет 1 слово длиной от 1 до 3 символов. 2) Количество ключевых слов - случайное число от А до В, где А и В - задаются мной (примерно будет от 5 до 10) 3) Желательно, но не обязательно, чтобы ключевое слово, выбранное скриптом в п1, встречалось больше 1 раза в тексте 4) Скрипт должен проанализировать текст, выбрать значимые словосочетания, потом поискать, повтрояются ли они в тексте больше 1 раза - если нашлось, допустим, 50 ключевых слов, и скрипт нашел, что только 3 из них повторяются в тексте, тогда скрипт должен взять эти 3 плюс еще 7 (если В=10)

Скрипт будет выполняться на сервере

Скрипт может работать 2 способами (как удобнее для практики): 1) Скрипт отбрабатывает сайт целиком (а это несколько ГБ текстов) или 2) скрипт работает постоянно и вычисляет ключевые слова по мере обращения к странице поискового робота или человека (то есть если данную старницу никто не запрашивал, то по ней ключевые слова не вычисляются). 2 вариант, я думаю, предпочтительнее

Если что непонятно или можно сделать лучше (по-другому), то спрашивайте