Распознавание текста объявлений и размещение в БД
Требуется создать скрипт для распознавания текста газетных объвлений и преобразование информации в таблицу БД.
Есть объвления в газете в формате Classifieds, где размещается информация об объектах недвижимости. Пример в файле gazeta.jpg
Надо распределить эту информацию по полям БД По следующему алгоритму:
Распознав название улицы поместить в ее в поле Адрес, Номер дома и т.д. Такие параметры как тип дома (хрущевка, сталинка и т.п.) поместить как значение да/нет (или как там будет правильнее с точки зрения БД) в соответствующее поле. Аналогичным образом поступаем с остальной информацией. Причем скрипт должен иметь словарь по которому он определяет, что значения комн.=комната, с/у= сан.узел, разд.=раздельный, хор.=хорошее и т.п.
В итоге должна получиться таблица в которую помещены данные:
Адрес, кол-во комнат, Этаж, Этажность, Общая площадь, Жилая площадь, Кухня, Площадь по комнатам, Тип дома, Тип перекрытия, Планировка, Балкон, Лоджия, Сан.узел, Состояние, Ремонт, Окна, Комментарии, Тел., Продавец, Тел.продавца, Агентство, Риэлтор.
Разумеется само распознавание может(должно) проходить с применение сторонних программ.