Морфологический анализ объема данных

Владимир15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
07.01.2015

Нужен помощник-программист и энтузиаст data mining с научно-исследовательскими целями. Решается проблема нашего технократического общества, в котором технологии опережают реальные потребности людей.

Дано:

Собранный объем информации за определенный период в виде статей с таксономией.

Задача:

Сделать выводы и прогнозы, обнаружив закономерности и тренды

Решение:

Нужно проанализировать статьи на % повторяющихся слов и словосочетаний. Результат нужен в виде не просто отсортированных ключевых слов, а группы статей, объединенные по их типу. То есть это похоже на задачу кластеризации.

Основное, что требуется для ее решения, — написать функцию расстояния, которая на вход принимает пару заказов и на выходе дает число, показывающее, насколько они похожи. Например, 1, если это одна и та же задача, и 0, если между ними нет ничего общего. Если что-то общее есть, то какое-то значение где-нибудь между 0 и 1. Есть разные алгоритмы кластеризации, которые, используя эту функцию расстояния, смогут объединить близкие задачи в одну группу.

Чтобы такую функцию написать тоже может потребоваться перебрать несколько вариантов. Для начала можно смотреть на количество одинаковых слов в текстах статей. Слова можно взвешивать, чтобы часто употребляемые имели меньший вес (TF-IDF). Возможно, у текста статей есть какие-то особенности, которые помогут построить более точную функцию расстояния.