Извлечь все таблицы из PDF

Гость3 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
13.10.2021

Нужен скрипт (желательно на Python или Jupyter Notebook), который автоматически извлекал все таблицы из pdf файла.

Плюс с таблицей извлекался текст, относящийся к таблице. Текст расположен мелким шрифтом до и после таблицы.

Этот текст до и после тоже должен извлекаться вместе с таблицей.

Скрипт конвертирует всю информацию в .csv формат.

Скрипт дает название файлу как строчка из DOI.

Для примера прикреплен pdf файл. DOI расположен внизу на первой странице.

Данный скрипт должен работать для любых подобных научных публикаций в формате pdf. DOI может располагаться где угодно.

По срокам: Не торопит. Главное, чтобы качественно сделано.

Заявки фрилансеров