Сделать OCR на основе открытого кода
Вам будут выданы пачки пар: pdf документ и json объект. Пример приколот внизу. Вам надо будет выбрать подходящий OCR движек и попытаться сделать следующее:
1) ну, собственно прогнать OCR по самому документу (первые две страницы с лого Prо Titlе USА можно отрубить)
2) посмотреть какой из существующих движков/библиотек позволяет порезать документ на фрагменты не являющиеся текстом (росписи там, элементы оформления) и собственно текст по параграфам
3) посмотреть какой из движков позволяет высчитать точное направление строк (то есть вот тут http://prntscr.com/evq4tf угол между зеленой горизонталью и красной линией, собственно направлением строк)
4) ВАЖНОЕ! прежде чем OCRить надо посмотреть - может это pdf с текстом. Тогда не надо OCRить, надо просто прочитать :)
В качестве результата должен быть сдан код, который забирает pdf и json и выдает вот эти вот пункты 1, 2 и 3 для каждой страницы документа и отмечает поля JSONа встретившиеся в тексте. Как тут показано http://prntscr.com/evq762 Сверху оригинал (предположим что он успешно про OCRился), соответственно на 12ой странице проOCReнного текста слова "US Bank, NA, as Trustee for Prof-2013-S3 Remic Trust VI" надо будет подчеркнуть или иным образом отметить. Можно в базе пометку, не важно. Лишь бы я мог птом машинно разобрать.
Я раздам проект нескольким людям, в зависимости от предложенных для исследования библиотек. Задача стоит не в том, что бы добиться идеального распознания, а в том, что бы сделать четкий обзор того, что из каких популярных и развитых движков можно в этом направлении выжать.
Пожалуйста, отзывайтесь если вы или уже знакомы с какой-то библиотекой/движком или готовы сперва разобраться, а потом делать ставку. Я не дам проект пока не убежусь что вы в курсе о чем говорите.
Детали:
1) для тренировки могу выдать до 100 пар PDF+JSON
2) Использовать Гугль Вижн АПИ можно и нужно, но а) только кому-то одному, а не всем и б) нарегестрируйте аккаунтов несколько там сами плз. Что бы за бесплатный лимит 1000 не перевелить прямо во время тестов.
3) Глобальная цель в том, что бы проверять результаты работы. То есть сверять аккуратность JSON с текстом сканов. Нам понадобится потом еще и порезать документ на правильные фрагменты. Как вот тут http://prntscr.com/evq762 Sold to "XXX" (сверху, из PDF) как раз и означает Current Owner (из JSON). Если у вас есть опыт/мысли на эту тему - не стесняйтесь озвучивать.
4) Если кто-то справится с задачей очень хорошо, то я предложу постоянную работу с переездом в Доминиканскую Республику. С очень хорошей зарплатой.