Перевести содержимое документа PDF (табл.) в HTML
Имеется документ - 6 страниц в PDF-формате (таблицы + рисунки). Требуется сформировать аналогичный "чистый" HTML(xHTML)-код. Верстка макета не требуется! Нужно сформировать только "контент".
На выходе - 1 страница HTML-кода, которая в дальнейшем будет вставлена между шапкой и подвалом сайта.
Требования к коду просты:
Таблицы:
- Тэг table выглядит так:
(ничего лишнего)- первый ряд всех таблиц содержит ЗНАЧЕНИЕ (внутри никаких , align и тд)
- внутри таблицы тэги чередуются: )
- ширина элементов td не указывается;
- большинство ячеек содержит только ЗНАЧЕНИЕ (аналогично, никаких атрибутов align,
)
- часть ячеек (первая колонка в таблицах "габариты") выравнивается по горизонтали (align="center")
- часть ячеек выравнивается по вертикали (style="vertical-align:middle") - "Вода", "Газ"
Рисунки:
- располагаются относительно корня сайта в каталоге "images":
- имеют атрибуты alt=""
Текст:
- абзацы содержат "чистое" форматирование (
), никаких style="mso... и тд- если в тексте имеется маркированный|нумерованный список, в HTML-разметке он оформляется соответственно (
- или
- )