Скрипт по работе с текстом и Excel
Нужно написать программу, работающую на сайте. Либо десктопную версию.
Принцип работы программы:
1. Загружаем в программу файлы Word (.doc) с русским и английским текстом.
2. Разбиваем текст на предложения. Желательно это сделать с использованием Томита-парсера от yandex.
3. Программа сортирует текст на русские и английские предложения. Последовательность их должна быть сохранена как в исходном Word (doc). Английские предложения попадают в столбец A, русские предложения попадают в столбец B.
4. Программа из каждого английского предложения берет нужное кол-во слов, кол-во задает оператор. Минимальное кол-во символов в слове также задает оператор. И программа формирует набор слов, который записывается в новом листе того же Excel файла. Есть список слов исключений, которые программа не берет из фраз.
5. Получаем на выходе Word (.xlsx). Пример что загружаем и что получаем, Интерфейс программы – в прикрепленном rar файле.
Язык программирования не важен.