Морфологический анализ объема данных
Нужен помощник-программист и энтузиаст data mining с научно-исследовательскими целями. Решается проблема нашего технократического общества, в котором технологии опережают реальные потребности людей.
Дано:
Собранный объем информации за определенный период в виде статей с таксономией.
Задача:
Сделать выводы и прогнозы, обнаружив закономерности и тренды
Решение:
Нужно проанализировать статьи на % повторяющихся слов и словосочетаний. Результат нужен в виде не просто отсортированных ключевых слов, а группы статей, объединенные по их типу. То есть это похоже на задачу кластеризации.
Основное, что требуется для ее решения, — написать функцию расстояния, которая на вход принимает пару заказов и на выходе дает число, показывающее, насколько они похожи. Например, 1, если это одна и та же задача, и 0, если между ними нет ничего общего. Если что-то общее есть, то какое-то значение где-нибудь между 0 и 1. Есть разные алгоритмы кластеризации, которые, используя эту функцию расстояния, смогут объединить близкие задачи в одну группу.
Чтобы такую функцию написать тоже может потребоваться перебрать несколько вариантов. Для начала можно смотреть на количество одинаковых слов в текстах статей. Слова можно взвешивать, чтобы часто употребляемые имели меньший вес (TF-IDF). Возможно, у текста статей есть какие-то особенности, которые помогут построить более точную функцию расстояния.