Победить php_tidy

Гость19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
13.12.2006

Дано:

Есть огромная куча html-отчетов в разных кодировках и разной степени НЕвалидности этого html.

Требуется:

Написать на PHP функцию Rep2Xml, которая берёт на вход _строку_ с HTML-кодом (предварительно прочитанным из файла), выдаёт на выход валидный XML в зараннее заданной кодировке (целевую кодировку можно принимать параметром.

Критерии валидности XML:

Возможна обработка стандартными XML и XPath функциями PHP.

Возможна обработка стандартными XML и XPath функциями C# (.NET 2.0) (Легко проверить натравив на результирующий файл функцию XmlDocument.LoadXml

Тесты:

Берём любые 10 вебсайтов и генерим из индекса XML, проверяем на валидность как указано выше.