Сегментация Списка(python, морфология)
Цель:
Создать алгоритм сегментации списков
Входные данные:
Основной список, и список для сегментации
Выходные данные:
Сегментированые списки
Пересечения( фразы, которые попали в несколько списков)
Дополнительно:
параметр(direct) - не использовать словоформы
параметр(игнорирование) - через запятую указано какие предлоги или фразы мы игнорируем( например --ignore=’при,для,в’ )
параметр(игнорирование частей речи) - через запятую указано какие части речи мы игнорируем
Алгоритм:
Последовательно пройти по первому списку и создать на основе списка для сегментации новый список
создать список, где есть пересечения( фразы которые попадают в несколько списков) создать список, куда не вошло ни одно слово
Пример:
Основной список
1 - Где пройти обследования
2 - обследования пройти
3 - Обследование
4 - обследование при ангине
5 - Где пройти обследования при ангине
6 - гнойная ангина
7 - пройти обследование при гнойной ангине
Список сегментации
1 - пройти
2 - ангина
Параметр direct не задан, параметр ignore = ’при,для,в’
После работы скрипта мы должны получить несколько списков:
I. Список пройти:
1- Где пройти обследования
2- обследования пройти
II. Список ангина:
1- обследование при ангине
2- гнойная ангина
III. Список пересечений:
1- Где пройти обследования при ангине | ангина, пройти
2- пройти обследование при гнойной ангине | ангина, пройти
IV. Список оставшихся слов:
1- Обследование
Примечание - список пересечений будет иметь 2 колонки, первая колонка - это фраза, вторая это список сегментации через запятую куда оно попало