Извлечь все таблицы из PDF
Гость3 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
13.10.2021
Нужен скрипт (желательно на Python или Jupyter Notebook), который автоматически извлекал все таблицы из pdf файла.
Плюс с таблицей извлекался текст, относящийся к таблице. Текст расположен мелким шрифтом до и после таблицы.
Этот текст до и после тоже должен извлекаться вместе с таблицей.
Скрипт конвертирует всю информацию в .csv формат.
Скрипт дает название файлу как строчка из DOI.
Для примера прикреплен pdf файл. DOI расположен внизу на первой странице.
Данный скрипт должен работать для любых подобных научных публикаций в формате pdf. DOI может располагаться где угодно.
По срокам: Не торопит. Главное, чтобы качественно сделано.