Нужен алгоритм для обработки текстов
Имеется ~5k текстовых файлов в формате *.txt. Почти все отформатированы по фиксированному количеству столбцов (т.е. использован word wrap), иногда заголовки написаны БОЛЬШИМИ буквами (которые иногда подчёркнуты), использованы также и другие элементы текстовой псевдостилизации.
Требуется: разработать алгоритм для перевода этих текстов в формат HTML с применением базовых тэгов оформления (H1-H6, P, UL, LI). Стили не нужны. Программа должна (как минимум):
1. Искать в исходном файле txt заголовки и обрамлять их тэгами h1, h2 в соответствии с их уровнем
2. Находить в исходном тексте абзацы, убирать wrap и обрамлять текст каждого абзаца тэгом p.
3. Хорошим бонусом будет вознаграждена функция поиска в исходном тексте списков, обрамляющая их тэгами ul, li.
(Для тех, кто считает эту задачу элементарной сразу говорю, что простая замена \n на
и обрамление всего текста в
не подойдёт, хотя формально это и превратит txt в html, задача ставится иная, см п.1 - п.3).
Примеры текстов, которые нужно сконвертировать, – в аттаче.
Если вы любите разрабатывать различные алгоритмы – эта работа для вас. Если вы уже делали что-то подобное – укажите это.
Прошу, указывайте вашу цену и срок.