Поиск фактов (Data-mining)
[h2]Поисковая система.[/h2]
Обрабатывает тексты на естественном языке. Из них выделяет "факты" о упоминаемых людях, и выполняет поиск по этой базе.
Например, "Oscar" выведет всех обладателей премии оскар известных системе, вместе с краткой аннотацией.
[h3]Паук. [/h3]
PHP(многопоточность)+Redis+mySQL
Обходит сайты, сохраняет копии страниц, получает вложенные ссылки, переходит по новым ссылкам.
[h3]Экстрактор контента.[/h3]
PHP|Python
Выделяет из текста страницы смысловую часть (основной текст).
[h3]Обработка естественного языка.[/h3]
Java+Python+PHP
[list][*]Распознавание именованных сущностей (NER)[*]Определение частей речи[*]Определение связей между словами[*]Определение ссылок (местоимения, разные варианты имени) (CR)[*]Построение семантического дерева[*]Обход дерева (собственно выделение структурированных данных)[/list]
[h3]Индекс+Поиск[/h3]
PHP+Phing+MySQL
Данные харняться в виде набора фактов:
человек-*функция*-*аргумент
JavaMySQLPHPPythonRedis