Необходимо переписать две функции – wcomb и mkdic
Есть кусок кода на перле.
Необходимо переписать две функции – wcomb и mkdict
Остальные функции не несут смысловой нагрузки.
В целом, данный скрипт выдран из бОльшего скрипта. Он предназначен для парсинга текста, и делает из него словарь.
Функцию парсинга текста get_text я вырезал за ненадобностью, т.к. текст будет браться либо из локального файла, либо закачиваться с компьютера.
Функция form_sents, видимо, убирает лишние символы.
Функция wcomb собирает из текста словосочетания из двух слов, если в тексте они встречаются N-ное кол-во раз, и помещает в файл WC. (wc_bwords.cfg – это, похоже, список стоп-слов)
Функция mkdict, собстственно, создает словарь. Вначале выполняется внешняя программа tagger, и сохраняет в файл с расширением «.tagg». Из созданного tag-файла парсятся части речи и складываются в соответствующие файлы: RB NN NNS VB VBN VBG JJ JJR. В заключение, на основе этих файлов и tagg-файла создаются так называемые темплейты.
Примеры файлов находятся в аттаче в папке dict.
Данный скрипт надо переписать и оформить в работающий скрипт на PHP или Python (Perl не желателен, предпочтителен PHP). Программа tagger будет находиться физически на том же сервере. Скрипт должен иметь простейший интерфейс, посредством которого можно будет указать путь до tagger’а, откуда брать текст (локальный файл, с компьютера или http), название созданного словаря (папка, в которой будут файлы, сейчас это dict). По окончании работы скрипта должно быть соответствующее извещение, название словаря, размер (кол-во строк) файлов RB NN NNS VB VBN VBG JJ JJR WC TMPL
Желательно реализовать таким образом, чтобы при закрытии страницы (кроме случая, когда файл в процессе загрузки с компьютера) скрипт продолжал работать.