Перевод текста из PDF в структуру XML
Есть файл - "газетный" PDF (соответствует по размеру формату бумаге А2), состоит из сообщений (примерно 60, в 4 столбца).
Необходимо написать программу, которая:
-разбивает PDF на отдельные сообщения (при этом ОБЯЗАТЕЛЬНО сохраняет ЖИРНЫЙ шрифт там, где он был)
-анализирует сообщение и на основании найденных совпадений ПРЕДПОЛАГАЕТ Регион РФ (из списка 81)
-ПРЕДПОЛАГАЕТ №сообщения
-ПРЕДПОЛАГАЕТ Наименование юр.лица (оно в PDF жирным шрифтом)
-Выделяет ЦВЕТОМ в самом сообщении те слова, на основании которых были сделаны ПРЕДПОЛОЖЕНИЯ
-Все сделанные ПРЕДПОЛОЖЕНИЯ выводит в "область контроля", в которой человек ПРОВЕРЯЕТ правильность сделанных ПРЕДПОЛОЖЕНИЙ.
-Если человек не согласен правит предположения вручную.
-Если человек согласен, то нажимает кнопку ПРИНЯТЬ.
-Сообщение записывается в файл XML
-Дальше идет следующее сообщение пока не будут обработаны все.
2 приложенных файла:
1)Краткое описание Сути (с Исходным сообщением и XML-кодом к который это сообщение должно превратиться)
2)Черновой вариант внешнего вида ПЕРЕГОНЩИКА
Это достаточно краткое описание, желающим и предложившим цену за выполнение будет выслана дополнительная документация.