Доработка скрипта (php+phpmorphy+PostgreSQL
Нужно доработать скрипт, написан с использованием php+phpmorphy+PostgreSQL
Основная цель скрипта – группировать фразы исходя из вхождения слов
что делает скрипт:
1. Лемматизирует слова во фразах (phpmorphy)
2. Группирует/Привязывает фразы друг к другу исходя из вхождения слов во фразах, другими словами из списка разрозненных фраз строится дерево фраз, например:
офисная мебель
офисная мебель каталог
офисная мебель комус каталог
офисная мебель недорого
мебель для спальни
купить мебель для спальни
итальянская мебель для спален
помимо этого в скрипте есть и другие функции, но основная доработка требуется именно для группировщика
глобально две задачи:
1. Поправить работу группировщика (на данный момент, все работает в общем как нужно, но есть одна проблема)
2. Оптимизировать работу скрипта с целью ускорения процесса обработки больших объемов данных
комментарий от разработчика скрипта: "там огромный потенциал для оптимизации, но на таких объемах придется применять наработки и знания в области больших баз, т.е. анализировать каждое действие скрипта, каждый запрос, переписать больше половины кода."