Написать программу конвертер для файлов формата .doc и .docx

Екатерина9 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
17.06.2016

Программа должна получать на вход файл .doc или .docx, распознавать в

нем текст вместе с логической структурой:

- основной текст, абзацы

- заголовки (до 3-го уровня, в том числе распознавать заголовки,

заданные форматированием, а не стилем заголовка)

- стили шрифтов (жирный, курсив)

- сноски

- эпиграфы

- стихотворные строфы

Входные файлы имеют сильно различающееся форматирование, нужно

определять логическую структуру как по специальным стилям (например,

заголовок) в блоках, так по паттернам форматирования. Распознанный текст

необходимо переводить в формат markdown и сохранять в кодировке UTF-8.

Интерфейс - текстовый posix, программа должна работать в ОС Linux.

При отклике, будем признательны за ответы на следующие вопросы:

На какой платформе собираетесь делать?

Какое решение планируете использовать?

Как давно с данной платформой/языком работаете?

Какие есть наработки по близкой теме/на этом языке/этой платформе?

Для каких ОС писали системные программы?

Спасибо!