Парсер документов
Требуется написание парсера многостраничного pdf файла в структурированный массив данных – в xml
Можно использовать бесплатный pdf экстрактор или прочие доступные средства, главное,чтобы результат парсинга можно было структурировать.
На входе три разных по структуре pdf отчета на выходе три разных по структуре xml
Примеры того, что нужно парсить приатачил
Структуру xml файла предоставлю, какие именно данные из отчеты вытаскивать напишу при личном общении.
Приложение должно быть для web, то есть клиент грузит отчет на сайте, серверная часть обрабатывает документ и выдает результат юзеру. Выдача результата уже на нашей стороне, ваша задача – распарсить и разложить данные в массив.
Рассмотрю и десктопные варианты приложения, можем под это дело выделить сервер на никсе или винде.