Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Здравствуйте.

Необходимо написать скрипт анализа текста на русском языке. Входные параметры - текст на русском языке, список ключевых слов, список стоп слов. На выходе получаем исходный текст, но в нем уже должны быть зеленым подсвечены вхождения слов из списка ключевых слов, а красным вхождения стоп слов. Надо сделать возможность просмотра либо только ключевых слов, либо только стоп слов, либо и того и другого и надо, чтобы переключение между этими просмотрами выполнялось без пересчета текста.

Дополнительное требование: ключевые слова / стоп слова могут состоять из словосочетаний от 1 до 8 слов

У скрипта должны быть три режима работы:

1. Поиск точного вхождения ключевых слов / стоп слов (совпадают словоформы и последовательность слов)

2. Поиск уникальных слов из списка ключевых слов / стоп слов (то есть берутся все слова из списка ключевиков, лемматизируются и берутся уникальные основы, затем в исходном тексте подсвечиваются зеленым цветом, слова содержащие эти леммы)

3. Смешанный из 1 и 2 режима, то есть сначала лемматизируем (убираем словоформы), но сохраняем последовательность слов.

Также надо сделать расчет базовой статистики: % вхождения ключевых слов, % вхождения стоп слов из списков во всем тексте.

9 лет назад
clifrise
Белый 
40 летРоссия
9 лет в сервисе
Был
5 лет назад