Классификация доkументов (Python)
Делается web портал который принимает заявки на ремонт типа:" У меня течет кран на кухне" или "У меня не работает розетка в гараже"
Эти заявки должны классифицироваться и раздаваться специалистам (электрикам, садовникам, водопроводчикам...).
Что необходимо: Модуль NLP (Natural Language Processing) который на вход принимает набор классов (в нашем случае список специалистов) и заявку в виде текста.
На выходе модуль должен дать следующее:
1. Классификация входной заявки (в наших случаях: первая заявка должна классифицироватся как для водопроводчика, вторая: для электрика)
2. Анализ сентимента по расширенной схеме - в Python есть модуль NRCLex
3. Список триплетов (Subject Object, Verb) в синонимами (WordNet)
4. Если классификатор понял что классификация идет по нескольким классам - необходимо дать какой-то коэффициент для каждого класса)
В случае "непопадания" в существующие классы, модуль все равно выдает пункты 2,3,4.
Да, вот еще что: Заявки пишутся людьми - вполне возможно надо будет перед анализом прогнать это все через spell checker.
Модуль должен выдавать в формате JSON (структура сейчас не важна, можно обговорить позднее.
Модуль должен быть написан на Python как web service и поставлен na AWS Lambda (если с этим не работали, нет проблем, помогу поставить туда)
Модуль будет вызываться "снаружи" из портала как webservice
training data нет.
Mодуль должен быть написан на Python