Тер С.
43 года, США
10 лет в сервисе
Был онлайн 1 час назад
17 дней назад
Вам будут выданы пачки пар: pdf документ и json объект. Пример приколот внизу. Вам надо будет выбрать подходящий OCR движек и попытаться сделать следующее: 
1) ну, собственно прогнать OCR по самому документу  (первые две страницы с лого Prо Titlе USА можно отрубить)
2) посмотреть какой из существующих движков/библиотек позволяет порезать документ на фрагменты не являющиеся текстом (росписи там, элементы оформления) и собственно текст по параграфам
3) посмотреть какой из движков позволяет высчитать точное направление строк (то есть вот тут http://prntscr.com/evq4tf угол между зеленой горизонталью и красной линией, собственно направлением строк)
4) ВАЖНОЕ! прежде чем OCRить надо посмотреть - может это pdf с текстом. Тогда не надо OCRить, надо просто прочитать :)

В качестве результата должен быть сдан код, который забирает pdf и json и выдает вот эти вот пункты 1, 2 и 3 для каждой страницы документа и отмечает поля JSONа встретившиеся в тексте. Как тут показано http://prntscr.com/evq762  Сверху оригинал (предположим что он успешно про OCRился), соответственно на 12ой странице проOCReнного текста слова "US Bank, NA, as Trustee for Prof-2013-S3 Remic Trust VI" надо будет подчеркнуть или иным образом отметить. Можно в базе пометку, не важно. Лишь бы я мог птом машинно разобрать. 

Я раздам проект нескольким людям, в зависимости от предложенных для исследования библиотек. Задача стоит не в том, что бы добиться идеального распознания, а в том, что бы сделать четкий обзор того, что из каких популярных и развитых движков можно в этом направлении выжать.

Пожалуйста, отзывайтесь если вы или уже знакомы с какой-то библиотекой/движком или готовы сперва разобраться, а потом делать ставку. Я не дам проект пока не убежусь что вы в курсе о чем говорите.

Детали:
1) для тренировки могу выдать до 100 пар PDF+JSON
2) Использовать Гугль Вижн АПИ можно и нужно, но а) только кому-то одному, а не всем и б) нарегестрируйте аккаунтов несколько там сами плз. Что бы за бесплатный лимит 1000 не перевелить прямо во время тестов. 
3) Глобальная цель в том, что бы проверять результаты работы. То есть сверять аккуратность JSON с текстом сканов. Нам понадобится потом еще и порезать документ на правильные фрагменты. Как вот тут http://prntscr.com/evq762 Sold to "XXX" (сверху, из PDF) как раз и означает Current Owner (из JSON). Если у вас есть опыт/мысли на эту тему - не стесняйтесь озвучивать. 
4) Если кто-то справится с задачей очень хорошо, то я предложу постоянную работу с переездом в Доминиканскую Республику. С очень хорошей зарплатой. 
Войдите в аккаунт, чтобы открыть приложения к заказу.
Ваша заявка к этому проекту
Войдите в аккаунт, чтобы добавить заявку и открыть данные заказчика.
Приглашенные фрилансеры
Нет заявок от приглашенных фрилансеров
Заявки фрилансеров
Денис К.
35 лет, Россия
25 дней в сервисе
Был онлайн 2 дня назад
16 дней назад
Михаил Глухов
33 года, Россия
2 месяца в сервисе
Был онлайн 1 день назад
16 дней назад
Сергей Брава
30 лет, Россия
15 дней в сервисе
Был онлайн 6 часов назад
15 дней назад
Олег Д.
48 лет, Казахстан
1 год в сервисе
Был онлайн 18 часов назад
14 дней назад
Илья Дудкин
49 лет, Украина
13 дней в сервисе
Был онлайн 12 дней назад
13 дней назад
Эмиль А.
24 года, Россия
3 месяца в сервисе
Был онлайн 2 дня назад
12 дней назад
Никита Ершов
17 лет, Россия
10 дней в сервисе
Был онлайн 9 дней назад
10 дней назад
Кирилл Белов
19 лет, Узбекистан
2 месяца в сервисе
Был онлайн 7 часов назад
5 дней назад
Даниил Белов
17 лет, Украина
1 день в сервисе
Был онлайн 1 день назад
1 день назад
Похожие заказы

Создание модуля DLL "Копирование базы данных в архив"

ПОСТАНОВКА ЗАДАЧИ Написать дополнительный модуль для программы, работающей с базой данных mdb (формат Microsoft Access 97). Задача модуля: сделать копию файла базы данных в другой каталог (это будет архив), а из оригинала файла базы данных удалить ст...

Программа генератор кода постоянно повышающейся цены.

Общие сведения о программе и ее назначении. --------------------------------------------------------------- Назначение: Генерирует код постоянно повышающейся цены. Пользователь заполняет несколько бланков, выбирает нужные платежные системы, функци

Анализатор кода

Требуется написать программу, которая будет работать как демон и делать следующее: 1. Получает информацию из базы данных, MySQL (url-сайта, текст ссылки, url-ссылки) 2. Получает данные по адресу url-сайта (страница c html кодом) 3. В получен

Сделать маленький http сервер на VC

Требуется сделать маленький http сервер на VC. Требования: минимальное занимаемое место в памяти. обработка post/get запросов, использование интерпретатора php5, Работа в качестве сервиса.

Нужно сделать 3D программу - визуализатор

У нас есть файл с массивом 3D точек с цветом в каждой точке Реализовано: Триангуляция по этим точкам Совмещение 2х поверхностей Вычесление обьёма между этими поверхностями Есть DLL и тестовая программа которая всё это делает Нужно изпользуя данное,

Java соединить C++ (*.Dll) через JNI, разовое, но возможно долгосрочное сот

День добрый, нужно связать яву с библиотекой на c++ (*.dll) чтоб потом можно было вывести расчеты, которые делаются в этой dll на экран с помощью jsp с выводом не проблема, проблема с подключением Java + C++ (*.dll) пока хотим использовать метод JN

Программа для интернет-кафе

Что требуется: Автономная программа, которая разблокирует компьютеры после введения пользователем кода (код - ТОЛЬКО цифры, без букв) и блокирует компьютеры через определенное кол-во времени (устанавливается администратором). Платформа – Windows XP (...

Создание системы Virtual Classroom на основе FMS2 (Flashcom)

Многоэтапный проект по разработке системы дистанционного обучения основанной на Flash Media Server (Flash Communication Server, FlashCom, FCS, FMS). Система будеть иметь много общего с Adobe Breeze. Сдельная оплата. Очень интересная работа с потенциа...

Обработчик GIF картинок.

Программа обработчик 1 GIF картинки. Цель - создание множества читабельных картинок с разным размером и внутренним кодом. Например берем картинку ГИФ. Ставим ее в прогу. Выбираем колчиво для результат - 100 штук. Выбираем параметры - менять разме

Кодинг алгоритма

Есть алгоритм того, как надо обрабатывать числовую матрицу (см. файл) Алгоритм пытились сделать максимально формальным. Необходимо заколировать этот алгоритм на языке Python (!!!). Кроме собственно кода, необходимо также предоставить unit-тесты(!!!),...