Поиск фактов (Data-mining)

Веб-програмування
3958 переглядів
04.02.2014
1348×750310 КБ
content.png
1152×706605 КБ
tagging.png
1152×648205 КБ
in-out.png

[h2]Поисковая система.[/h2] Обрабатывает тексты на естественном языке. Из них выделяет "факты" о упоминаемых людях, и выполняет поиск по этой базе. Например, "Oscar" выведет всех обладателей премии оскар известных системе, вместе с краткой аннотацией. [h3]Паук. [/h3] PHP(многопоточность)+Redis+mySQL Обходит сайты, сохраняет копии страниц, получает вложенные ссылки, переходит по новым ссылкам.  [h3]Экстрактор контента.[/h3] PHP|Python Выделяет из текста страницы смысловую часть (основной текст). [h3]Обработка естественного языка.[/h3] Java+Python+PHP [list][*]Распознавание именованных сущностей (NER)[*]Определение частей речи[*]Определение связей между словами[*]Определение ссылок (местоимения, разные варианты имени) (CR)[*]Построение семантического дерева[*]Обход дерева (собственно выделение структурированных данных)[/list] [h3]Индекс+Поиск[/h3] PHP+Phing+MySQL Данные харняться в виде набора фактов: человек-*функция*-*аргумент
JavaMySQLPHPPythonRedis