Выборка предложений (реферирование) доработка или с нуля на C#.
Здравствуйте. Нужно доработать имеющуюся (есть исходники) или по вашему желанию сделать новую программу на языке C#.
Реферирование текста, если проще говоря – выборка предложений по значимости и наличию в них ключевых слов.
Сейчас программа просто выбирает предложения по введенным пользователем словам (картинка №1)
Нужно реализовать:
1. Вкладка частотного анализа документа.
Сначала из документа удаляются все стоп-слова, которые находятся в любом txt файле.
Потом выполняется частотный анализ документа.
Пример и часть функционала (картинка №2)
В этой закладке мы можем производить анализ материала по 2-м параметрам, используя сортировку: COUNT и DENSITY.
Параметр COUNT отражает частоту встречаемости этого словосочетания на анализируемой странице. Соответственно, так можно узнать наиболее популярные микротемы, выраженные словами, фигурирующими на странице.
Параметр DENSITY (плотность, густота, концентрированность) отражает то, насколько часто слово проявляет себя относительно других слов. Если параметр COUNT выражен абсолютной шкалой, то DENSITY относителен и высчитывается так:
DENSITY=COUNT(выбранное словосочетание)/TOTAL COUNT(вся совокупность словосочетаний)*100%
Составить таблицу, как в приложении по ссылке, только гораздо проще.
2. Оставить этот функционал и метод выборки предложений, но добавить ещё простой метод (с возможностью выбора пользователем по которому обрабатывать).
Суть нового метода :
1) Вычислить вес каждого предложения по значимости (суммируя вес DENSITY каждого слова предложения).
2) Вывести самые значимые предложения в порядке нахождения их в тексте. (Количество задается пользователем).
Отличие этого метода от уже реализованного - вывод не всех подряд предложений по очереди, а самых значимых.
Никаких дополнительных анализов текста не нужно.
3. Также добавить:
Учёт регистра ключевых слов при выборке предложений из документа.
Расширенный поиск.
1) со словами - Введите ключевые слова: Крузенштерн
2) со словосочетанием - Заключите словосочетание в кавычки: "книга Крузенштерн"
3) с любым из этих слов - Вставьте оператор OR между словами: человек OR пароход