Программа массовой чистки HTM/HTML файлов из Word
Здравствуйте!
Нужна программа для массовой чистки htm/html файлов, созданных в MS word 2003.
Необходимо удалять все ненужные теги, подобно функции в Dreamweaver - Clean Up Word Html - теги fonts и т.д.
Прога должна быстро и корректно работать с файлами размером до 30 Мб.
Алгоритм:
Указываю папку, в которой лежат файлы, которые нужно почистить.
Запускаю прогу. Показывается индикатор выполнения работы.
Файлы в папке почищены.
Желательно использование уже готовых наработок Tidy HTML - http://tidy.sourceforge.net/
P.S. Обыскал весь интернет - куча прог, но ни одна не работает корректно.
Если есть уже что-то готовое - то еще лучше, готов купить, только надо, чтобы прога реально работала (много перепробовал уже).
Примеры файлов, которые нужно обрабатывать, могу скинуть.
Прикрепляю архив, в котором:
1. Исходный файл.
2. Оптимизированный файл (не до конца)
3. Прога, которая оптимизирует нормально, но нужна собственная с доработками:
- обработка больших файлов (эта прога зависает)
- массовая обработка файлов
- удаление ссылок типа - 2. Ускорение силы тяжести Земли (удаление "" в начале и "" - в конце.
- возможно другие преобразования (используя библиотеки tidy html и т.д.)