Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).

Требования:

Пакетная обработка PDF → OCR → текстовый результат.

Использование Yandex Vision API (или альтернативы).

Текст дореволюционный, почерк и шрифт часто плохо читаем.

Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.

Возможность повторного запуска для новых файлов.

Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями.

Результат:

Скрипт/утилита (Python предпочтительно).

Инструкция по запуску и использованию.

Возможность локального хранения результатов.

Пример файла во вложении.

день назад
Евгений
 
28 лет
12 лет в сервисе
Был
день назад

Заявки фрилансеров

Евгений
 
29 лет
11 дней в сервисе
Был
час назад
1 отзыв
9 часов назад
Назар
 
33 года
3 года в сервисе
Был
19 минут назад
4 отзыва(-1)
день назад