Программа анализа документов - C# (2)
Нужна программа по анализу текста документов.
Функционал:
• Добавление и удаление документов пользователем для проверки.
* Предварительная обработка текста (избавление от фальсификации, обработка (Из текста удаляются все союзы, предлоги, вводные слова и проч. и Текст приводится к инфинитивной форме) через готовый модуль АОТ Морфология)
• Поиск заимствований в интернете (в системе Google через Google API) (Для поиска заимствований в интернете текст разбивается на абзацы, и для каждого абзаца подсчитывается индекс Флеша. Подсчитывается индекс Флеша для всего текста.)
• Генерация отчета о результатах поиска заимствований в удобной для пользователя форме. Сохранение предыдущих отчетов на локальной машине.
• Документы для проверки на заимствование могут поступать в различных форматах (поддержка .doc, .html, .docx, .txt). Для анализма все конвертируется в .txt
Более подробные пояснения к используемым алгоритмам в прилагаемом файле.
есть похожий проект из которого можно использовать готовые куски, если с ними работать проще, можно и без них.
язык C#
ICQ: 380945346