Написать программу конвертер для файлов формата .doc и .docx
Программа должна получать на вход файл .doc или .docx, распознавать в
нем текст вместе с логической структурой:
- основной текст, абзацы
- заголовки (до 3-го уровня, в том числе распознавать заголовки,
заданные форматированием, а не стилем заголовка)
- стили шрифтов (жирный, курсив)
- сноски
- эпиграфы
- стихотворные строфы
Входные файлы имеют сильно различающееся форматирование, нужно
определять логическую структуру как по специальным стилям (например,
заголовок) в блоках, так по паттернам форматирования. Распознанный текст
необходимо переводить в формат markdown и сохранять в кодировке UTF-8.
Интерфейс - текстовый posix, программа должна работать в ОС Linux.
При отклике, будем признательны за ответы на следующие вопросы:
На какой платформе собираетесь делать?
Какое решение планируете использовать?
Как давно с данной платформой/языком работаете?
Какие есть наработки по близкой теме/на этом языке/этой платформе?
Для каких ОС писали системные программы?
Спасибо!