Настройка OCR для пакетной индексации архивных документовНастройка OCR

Евгений12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
30.08.2025

Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).

Требования:

Пакетная обработка PDF → OCR → текстовый результат.

Использование Yandex Vision API (или альтернативы).

Текст дореволюционный, почерк и шрифт часто плохо читаем.

Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.

Возможность повторного запуска для новых файлов.

Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями.

Результат:

Скрипт/утилита (Python предпочтительно).

Инструкция по запуску и использованию.

Возможность локального хранения результатов.

Пример файла во вложении.

Заявки фрилансеров