Настройка OCR для пакетной индексации архивных документовНастройка OCR
Евгений12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
30.08.2025
Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).
Требования:
Пакетная обработка PDF → OCR → текстовый результат.
Использование Yandex Vision API (или альтернативы).
Текст дореволюционный, почерк и шрифт часто плохо читаем.
Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.
Возможность повторного запуска для новых файлов.
Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями.
Результат:
Скрипт/утилита (Python предпочтительно).
Инструкция по запуску и использованию.
Возможность локального хранения результатов.
Пример файла во вложении.