Разработка информационного ресурса для АОТ
Надо сделать 2 модуля на языке PHP.(морфология, синтаксис).
Первое:
Суть модулей:
1. Морфология - разбор слова(в окошечко вводим слова, оно посылается на сайт www.Aot.ru и выдает только результат.(Есть сделанный модуль только с сайтом Aot.ru я его вам прикреплю)) + надо еще сделать с http://www.morphology.ru/ и http://starling.rinet.ru/morph.htm
2.Синтаксис - разбор предложения (аналогично сделать как и морфологию на Aot.ru) + http://www.dictum.ru/ru/syntax/blog иhttp://slashzone.ru/parser/ (по одному предложению).
Второе. На сайте нужно добавить ссылку, позволяющую выполнять весь
цикл АОТ-обработки текста. Эта ссылка должна переводить на страницу, в
которой пользователь вводит текст, нажимает кнопку "графематическая
(первичная) обработка" и получает рез-тат обработки в виде таблицы:
--------------------------------------------------------------------
|№ предложения|№ графемы|графема|ссылка(идентификатор типа графемы)|
--------------------------------------------------------------------
графемой в соотв с aot.ru может быть цепочка русских букв с
прописной буквы, цепочка русских букв со строчной буквы, все буквы
большие, то же самое для англ букв, знаки препинания и т.д. см.
подробнее www.aot.ru.
каждому типу цепочки соответствует свой тип графемы. Это нужно сделать
ввиде pop-up сслыки через java.
Что нужно сделать:
На ПХП организовать загрузку файла в переменную. Далее текст разделить
на предложения. Признак окончания предложения: точка, воскл. знак,
вопр. знак, перенос строки. Каждому предложению соотв свой номер.
Выделив предложение, выделяете в нем графемы. Признак обособленности
графемы: пробел, знак табуляции, начало и конец предложения. Графемы
могут могут быть контактными, например: (слово) "слово", здесь () и
"" сливаются с основной графемой. Такие графемы - это кавычки,
скобки и т.д., не слова и не цифры. Чтобы решить эту проблему каждую
выделенную по пред. признакам графему необходимо "слева" и "справа"
проверить на наличие других графем.
таким образом:
Загружаете файл в переменную А.
Цыкл (по символам переменной А пока не достигнут конец текста)
{
В переменную B заносите графемы текущего предложения.
если (обнаружен признак конца предл.)
{
//B - графемы предложения
цыкл (по символам перем В)
{
если (обнаружены признаки обособленности графемы)
{
символы между признаками обособленности копируете в
перем. С
//определение графем слева слитных с С. Сохраняете
в массив С0
//определение графем справа слитных с С. Сохраняете
в массив С1
Выгрузка массива С0, перем. С, массива С1 в таблицу
с сопоставлением типа. Тип должен быть заранее
предопределен
}
}
}
}
Ну вот вроде описала)
По срокам надо чем быстрее, тем лучше...4,5 дней
Файлы прикрепленные - сделанная морфология только с одним сайтом.