Анализатор плотности ключевиков в тексте
ТЗ
Определение
------------------
Коючевик - любая фраза из одного или нескольких слов
ВХОД
Имеется текст в txt формате - файл до 10Мб в котором записано N строк текста
Пользователь выбирает Указываем
1) количество слов в ключевике, число > 0 (по умолчанию 3)
2) Не учитывать слова длиной до _____ символов, если стоит 0 или поле пустое, то учитываем все слова (по умолчанию 3)
3) флажок - учитывать или нет склонение (для простоты, если склонение учитывать не нужно, игнорируем все гласные в конце слова) (по умолчанию учитываем)
4) флажок - учитывать или нет слова содержащие цифры(по умолчанию нет)
5) учитывать или нет знаки препинания (по умолчанию нет)
ВЫХОД
нужно собрать все вхождения ключевых слов с учетом флажков и вывести их количество в порядке убывания, желательно иметь возможность копировать в буфер в формате, который при вставке в excel создает таблицу из двух столбцов - слово, количество.
ОСОБЕННОСТИ: ключевое слово не может содержать в себе возврат корретки (т.е. ЕНТЕР - конец строки)
ПРИМЕР 1
ВХОД ключевик 1 слово
Автомагнитола SONY CDX-GT747UI
Автомагнитола ALPINE 105E USB
ВЫХОД
Автомагнитола 2
SONY 1
ALPINE 1
CDX-GT747UI 1
105E 1
USB 1
ПРИМЕР 2
ВХОД ключевик 3 слова
Принтер лазерный Samsung ML-1661 Черный
Принтер лазерный Samsung ML-1661 Серый
Принтер лазерный Samsung ML-1866 Черный
ВЫХОД
Принтер лазерный Samsung 3
лазерный Samsung ML-1661 2
Samsung ML-1661 Черный 1
Samsung ML-1661 Серый 1
лазерный Samsung ML-1866 1
Samsung ML-1866 Черный 1