Необходимо спарсить из PDF в БД
есть каталог в PDF. PDF векторная. текст незакривлен. таблицы и картинки. надо засунуть в бд чтобы мы потом могли засунуть на сайт нашего клиента
парсер должен копировать
-- данные из таблицы + картинка.
объем информации
--400-500 страниц
ссылки на файлы
https://docs.google.com/file/d/0B2bBm-75mTn5UnFaSThGOGtqWTQ/edit?usp=sharing
https://docs.google.com/file/d/0B2bBm-75mTn5WHp4QXhXbE5NeU0/edit?usp=sharing
https://docs.google.com/file/d/0B2bBm-75mTn5WTNEZ3kyT01lS2M/edit?usp=sharing
https://docs.google.com/file/d/0B2bBm-75mTn5REMxNVhaOHZoVVU/edit?usp=sharing
https://docs.google.com/file/d/0B2bBm-75mTn5dlBTOGNiSURYOWc/edit?usp=sharing
https://docs.google.com/file/d/0B2bBm-75mTn5OVRYSmE5Rmh1ajQ/edit?usp=sharing
ТЗ
Содержимое страниц например "О компании" и т.д. нужно сохранять в таблицу content:
CONTENT:
ПОЛЯ: id, title, description
Содержимео товаров (винтов, болтов и т.д.) нужно сохранять в таблицу products
PRODUCTS:
ПОЛЯ: id, title, description, din, iso-din, imageName, categoryId
description будет содержать полное описание конкретного например болта, которое представлено в виде таблицы в pdf
imageName - общее название для 2-х картинок например:
123.jpg - основная картинка
123_sheme.jpg - доп картинка в виде чертежа(с pdf)
У каждого товара указана категория (например С шестигранной головкой), поэтому будет еще одна таблица
CATEGORIES:
ППОЛЯ: id, title, position
В таблице categories есть id, который будет использоваться в таблице products ->categoryId
Данный с pdf под номером 3(например BK_RUS_03.pdf) могут быть представлены в произвольном, структурированном виде НО только
с учетом удобного импорта в дальнейшем.