Извлечение текста из PDF и структурирование в XML
Алексей12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
02.09.2013
Требуется извлечение текста из номеров журналов, которые в формате PDF.
Далее текст разбивается по семантической разметке XML.
В отдельные теги помещаются заголовки, аннотации, текст статьи и т.д. согласно инструкции.
В одном номере 60-80 страниц. Оплата за один сделанный номер - 1000 руб.
Объем работы в месяц - от 10 номеров.
Временные затраты на один номер - до 2х часов.
Интересуют кандидаты, готовые работать на долгосрочной основе.
Обязательное требование - выполнение работы в четко установленные сроки.
Срок выполнения - 10 календарных дней с момента получения PDF файла.
Использование программ для работы с PDF и XML обязательно.