Программа для конвертирования и обработки офисных файлов excel и word
Фактически это повторный заказ вот этого проекта, но было попробовано с программистом решение задачи с помощью замен в офисных файлах напрямую, оставляя их в таком же формате. Но оказалось, что такой вариант крайне медленный и ненадёжный и поэтому, хотя проект был оплачен, было решено сделать новый, где программа будет сначала конвертировать офисные файлы в текстовые. Итак, задача с некоторыми уточнениями:
Нужен скрипт или программа, которая сначала конвертирует файлы word и excel в файлы txt и csv соответственно с помощью MS Office, а затем делает множественные замены текстовых выражений в этих файлах уже не используя MS Office. Я прописываю в настройках (в текстовом файле) путь к папке с файлами и список замен. Затем при необходимости кидаю в папку файлы и запускаю программу.
Пример списка замен:
какой-то текст = заменить на этот текст
325234 = 325225
"раз два" = "три четыре"
; = :
Ещё одна функция - анализ новых слов. Для этого в папке программы имеем текстовый файл со словами уже известными - known.txt (пополняю сам). И при запуске программы, она не только заменяет слова в текстовых файлах после конвертирования, но и формирует новый файл new.txt со словами, которых нету в файле known.txt.
Заметки:
- Кодировка текстовых файлов пусть будет Windows 1251
- Excel файлы с двумя листами должны конвертироваться в 2 csv файла. Например если имя файла "Таблица.xls" и в нём два листа - "Лист первый" и "Лист второй", то при конвертировании образуются 2 файла - "Таблица_Лист первый.csv" и "Таблица_Лист второй.csv"
- должны обрабатываться doc, docx, xls, xlsx, rtf, txt файлы (txt просто копируются конечно же)
- в результате должны получаться такие же файлы, как при сохранении из MS Office в виде текстовых + множественные замены
- Программа нужна как можно проще и дешевле, можно без интерфейса, можно консольная. Так же нужны будут и исходники (можно после оплаты)