Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Поисковая система.

Обрабатывает тексты на естественном языке. Из них выделяет "факты" о упоминаемых людях, и выполняет поиск по этой базе.

Например, "Oscar" выведет всех обладателей премии оскар известных системе, вместе с краткой аннотацией.

Паук. 

PHP(многопоточность)+Redis+mySQL

Обходит сайты, сохраняет копии страниц, получает вложенные ссылки, переходит по новым ссылкам. 

Экстрактор контента.

PHP|Python

Выделяет из текста страницы смысловую часть (основной текст).

Обработка естественного языка.

Java+Python+PHP

  • Распознавание именованных сущностей (NER)
  • Определение частей речи
  • Определение связей между словами
  • Определение ссылок (местоимения, разные варианты имени) (CR)
  • Построение семантического дерева
  • Обход дерева (собственно выделение структурированных данных)

Индекс+Поиск

PHP+Phing+MySQL

Данные харняться в виде набора фактов:

человек-*функция*-*аргумент