Написать сортировщик предложений в txt файлах
Для примера взял регулярное выражение:
сустав.*?\b\sревматизм.*?\b|сустав|подагр|артрит|артроз
Могут быть и другие слова, указываемые в настройках, в похожем виде регулярного выражения.
Программа должна найти предложения (разделённые «.?!») например, где есть вхождение «сустав» и так далее и распределить их по разным txt файлам результата. В настройках нужна возможность указать, сколько предложений брать также до и после найденной строки. Файл генерируется с именем «сустав» для данного примера. Если в одной строке встречается перечисление нескольких, например и сустав и подагр, то сгенерируется файл с именем «сустав, подагр». Результаты друг от друга отделяются пустой строкой, а если в результате попадается пустая строка, то вот так:
------------------------------------------------
Файлы анализируются поштучно, то есть берётся файл и просматривается на все совпадения. Перед результатами пишется имя файла, после него пустая строка. Результаты из разных файлов разделяются так:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Если размер какого то результирующего файла вырастет больше, чем указывается в настройках, то он должен резаться на несколько во избежание замедления записи в файл, если это возможно на вашем языке программирования.
В настройках также указываю директорию с txt (могут быть и вложенные папки), кодировку ANSI или UTF. Также сортировать по результатам от точки до точки (или другим знакам препинания) или также в соседних строках тоже (которые указаны в настройках, как выводимые в результирующий файл).
Прошу сразу указывать язык программирования, стоимость работы и какие электронные деньги Вы принимаете к оплате. Также прошу указать, когда Вы готовы приступить к выполнению задания и за сколько времени примерно сделаете. Можете делать в выходные или на неделе или и так и так. Оплата после получения и тестирования готовой программы. Операционная система Windows XP Home 32 bits. Исходники надо будет передать.