Нужен алгоритм для обработки текстов

Алексей17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
14.11.2014

Имеется ~5k текстовых файлов в формате *.txt. Почти все отформатированы по фиксированному количеству столбцов (т.е. использован word wrap), иногда заголовки написаны БОЛЬШИМИ буквами (которые иногда подчёркнуты), использованы также и другие элементы текстовой псевдостилизации.

Требуется: разработать алгоритм для перевода этих текстов в формат HTML с применением базовых тэгов оформления (H1-H6, P, UL, LI). Стили не нужны. Программа должна (как минимум):

1. Искать в исходном файле txt заголовки и обрамлять их тэгами h1, h2 в соответствии с их уровнем

2. Находить в исходном тексте абзацы, убирать wrap и обрамлять текст каждого абзаца тэгом p.

3. Хорошим бонусом будет вознаграждена функция поиска в исходном тексте списков, обрамляющая их тэгами ul, li.

(Для тех, кто считает эту задачу элементарной сразу говорю, что простая замена \n на
и обрамление всего текста в

 не подойдёт, хотя формально это и превратит txt в html, задача ставится иная, см п.1 - п.3).

Примеры текстов, которые нужно сконвертировать, – в аттаче.

Если вы любите разрабатывать различные алгоритмы – эта работа для вас. Если вы уже делали что-то подобное – укажите это.

Прошу, указывайте вашу цену и срок.

Заявки фрилансеров