Парсер php+word
Здравствуйте!
Необходим парсер word документов, который способен вытаскивать из них текст с форматированием.
В документах есть картинки, таблицы - это все пока не важно (хотя если сделаете что скрипт будет парсить и это - похвально).
Суть работы вот в чем:
есть тысячи однотипных документов *.doc
Информация о них забита в БД.
Все находятся в 1-ой папке.
Нужен скрипт (класс), которому передается имя файла - а у него в результате получается html-код - этого документа.
Особенность состоит в том, что документы на укр. языке.
Есть готовое решение -
http://obninsk.name/obninsk_doc/
точнее на его основе скрипт, вышлю исполнителям.
но оно к сожалению коверкает укр. язык - попробуйте, может сможете настроить класс под документы на украинском.
Нужна корректная работа с укр. языком т.е. ,апостроф сейчас, некоторые буквы, дефисы.. и т.д.
И еще - по возможности скрипт должен работать быстро :)