Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Вам будут выданы пачки пар: pdf документ и json объект. Пример приколот внизу. Вам надо будет выбрать подходящий OCR движек и попытаться сделать следующее: 

1) ну, собственно прогнать OCR по самому документу  (первые две страницы с лого Prо Titlе USА можно отрубить)

2) посмотреть какой из существующих движков/библиотек позволяет порезать документ на фрагменты не являющиеся текстом (росписи там, элементы оформления) и собственно текст по параграфам

3) посмотреть какой из движков позволяет высчитать точное направление строк (то есть вот тут http://prntscr.com/evq4tf угол между зеленой горизонталью и красной линией, собственно направлением строк)

4) ВАЖНОЕ! прежде чем OCRить надо посмотреть - может это pdf с текстом. Тогда не надо OCRить, надо просто прочитать :)

В качестве результата должен быть сдан код, который забирает pdf и json и выдает вот эти вот пункты 1, 2 и 3 для каждой страницы документа и отмечает поля JSONа встретившиеся в тексте. Как тут показано http://prntscr.com/evq762  Сверху оригинал (предположим что он успешно про OCRился), соответственно на 12ой странице проOCReнного текста слова "US Bank, NA, as Trustee for Prof-2013-S3 Remic Trust VI" надо будет подчеркнуть или иным образом отметить. Можно в базе пометку, не важно. Лишь бы я мог птом машинно разобрать. 

Я раздам проект нескольким людям, в зависимости от предложенных для исследования библиотек. Задача стоит не в том, что бы добиться идеального распознания, а в том, что бы сделать четкий обзор того, что из каких популярных и развитых движков можно в этом направлении выжать.

Пожалуйста, отзывайтесь если вы или уже знакомы с какой-то библиотекой/движком или готовы сперва разобраться, а потом делать ставку. Я не дам проект пока не убежусь что вы в курсе о чем говорите.

Детали:

1) для тренировки могу выдать до 100 пар PDF+JSON

2) Использовать Гугль Вижн АПИ можно и нужно, но а) только кому-то одному, а не всем и б) нарегестрируйте аккаунтов несколько там сами плз. Что бы за бесплатный лимит 1000 не перевелить прямо во время тестов. 

3) Глобальная цель в том, что бы проверять результаты работы. То есть сверять аккуратность JSON с текстом сканов. Нам понадобится потом еще и порезать документ на правильные фрагменты. Как вот тут http://prntscr.com/evq762 Sold to "XXX" (сверху, из PDF) как раз и означает Current Owner (из JSON). Если у вас есть опыт/мысли на эту тему - не стесняйтесь озвучивать. 

4) Если кто-то справится с задачей очень хорошо, то я предложу постоянную работу с переездом в Доминиканскую Республику. С очень хорошей зарплатой. 

 

7 лет назад
Mauser
Тер 
50 летСША
17 лет в сервисе
Был
4 года назад
  • Похожие заказы
  • $350

    Программа А (смотрите схему) общается с программой В (которая представляет собой локальный сервер) через потоковые сокеты и получает информацию с серверов С. Требуется написать эмулятор сервера B чтобы отдавай программе А свои данные. Документация на протокол взаимодействия ...

    Закрыт
    7 лет назад
  • [u]Общееописание приложения[/u]: кнопка, котораяподключает сервис аккаунт к Google Analytics аккаунту пользователя.   [u]Результат работы приложения[/u]: наш сервисаккаунт внесен в Google Analytics View (один или несколько) с уровнем доступа Manage users; Read&Analyze. Аналог данного функционала реализован здесь: http://www.wordstream.com. Только у нас приподключении будет доступ не в Adwords, а в Analytics.   Детальное описание прилагаю.  Просьба ...

    Прикладное ПОнет заявок
    Закрыт
    7 лет назад
  • $100

    На некоторых сайтах, при подключении через HTTPS-протокол, возникает ошибка следующего характера: "error:14077438:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert internal error" Например, эта ошибка возникает на 13thmeurealismunit.net/index.php (там редирект на другой домен, с HTTPS). Ошибка проявляется в Delphi, с использованием библиотеки Synapse + OpenSSL, DLL ...

    Закрыт
    7 лет назад
  • $220

    Требования к программе: Главное окно программы должно включать в себя поле для построения схемы, панель кнопок для быстрого вызова функций, а также две библиотеки графических примитивов: для обозначения технологических объектов и для обозначения приборов. Программа должна выполнять ...

    Закрыт
    7 лет назад
  • Что имеем: - файлы xml c кадастровыми данным по объектам - файлы складываются в папку по мере их поступления - таблица с объектами на гугл диске такого вида https://docs.google.com/spreadsheets/d/1eYrCOocnLWCibBPfHPMibBbxclijUof7kUfP6QL0ZWg/edit#gid=0 Требуется написать программу, которая будет: - собирать ...

    Прикладное ПО1 исполнитель
    Завершен
    7 лет назад
  • Разработать программу учета финансов для учета ежемесячных доходов и расходов компании расчета прибыли, НДС  и основных налогов. Проект состоит из нескольких этапов. На первом этапе  требуется реализовать функционал учета ежемесячных доходов и расходов компании. Среда разработки Delphi. ...

    Закрыт
    7 лет назад
  • Здравствуйте! Необходимо разработать программу для мониторинга ткацкого станка picanol omniplus и terryplus Задача мониторинга: Сколько остановок было у станка Сколько сбоев Какой метраж ткани выполнен Сколько находится в работе

    Закрыт
    7 лет назад
  • Нужно написать функции шифрования и дешифрования на языках php и c#.net главные требования 1) надежный алгоритм 2) не подключать сторониие сборки и библиотеки 3) то что зашифровано в .net должно быть расшировано в php 4) то что зашифровано в php ...

    Закрыт
    7 лет назад
  • Привет, ищу в команду junior программиста C# на проект по разработке ПО для десктоп(несколько модулей), удаленная занятость. [b]Разработка модульного ПО:[/b] [list][*]Удаленная работа, с частичной занятостью[*]Оплата по согласованию.[/list] [b]Требования к навыкам и опыту:[/b] [list][*]    Опыт работы с C# ...

    Закрыт
    7 лет назад