Написать скрипт, конвертирующий сайт в словарь
Необходимо сконвертировать slovesa.ru в словарь формата ABBYY Lingvo
вот такую к примеру страницу
http://slovesa.ru/assearch?q=%D8%D2%C0%CD%C8%D8%CA%C8
необходимо привести к такому виду:
ШТАНИШКИ
[m] Ассоциации со словом «ШТАНИШКИ» [m]«ШТАНИШКИ» связано с: [m]ПОЕЗДКА КЛИНЫШЕК ЛОДЫЖКА ГИПОТЕЗА [m] ШТАНИШКИ бывает: [m] КОРОТКИЙ ПОЛОСАТЫЙ ТЕМНО-СЕРЫЙ НАРЯДНЫЙ ЗИМНИЙ КОРОТЕНЬКИЙ СЕРЕНЬКИЙ УЗКИЙ БАРХАТНЫЙ НОВЫЙ ЗЛОСЧАСТНЫЙ КРОШЕЧНЫЙ ОЧЕРЕДНОЙ КАЗЕННЫЙ ТЕСНЫЙ ГУМАННЫЙ РОЗОВЫЙ ТЕМНО-СИНИЙ ВЯЗАНЫЙ [m] ШТАНИШКИ может(но): [m]СНЯТЬ ПИСАТЬ НАДЕТЬ ИСЧЕЗНУТЬ [m] Раскраска [m] Розовый Темно-серый Темно-синий [m] Масштабность»[m] Крошечный
То есть значимую информацию с КАЖДОЙ из страниц сайта (пройдясь по индексу слов) нужно вынуть и слить в этих тегах в ОДИН текстовый файл.
Желательно, чтобы каждое из словарных слов (ПОЕЗДКА КЛИНЫШЕК ЛОДЫЖКА ГИПОТЕЗА итд) было заключено в тег [ref]
Ту же операцию необходимо произвести с сайтом wordassociations.ru (лучше даже начать с него, так как он полнее)
В двух словах, в dsl заглавное словарное слово начинается с новой строки, тело карточки с новой строки и табуляции, [m] – перевод строки, а – полужир. Подробней о dsl (языке словарей Lingvo) здесь:
также перед преобразованием в формат dsl из словарных статей необходимо вычистить символы [ , ], #, @,
вместо них можно использовать: (,), {,}
спасибо.
андрей