Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

разработка модели выявления утверждений, означающих количественные оценки стоимостных объемов мировых рынков, из текстов научно-технологической тематики на английском языке с последующей визуализацией в виде коридоров ретроспективных, текущих и прогнозных оценок

1) получить данные(Уже есть!)

2) отложить и разметить вручную («содержит/не содержит») тестовую выборку

3) остальные неразмеченные данные причесать перед подачей в модель-векторизатор

4) получить векторы-эмбеддинги от модели векторизатора (здесь может быть Берт, но не как классификатор, а как эмбеддинговая модель!)

5) кластеризация этих векторов

6) TF-IDF между кластерами для поиска кластера, содержащего утверждения оценки стоимости мировых рынков

7) сохранение самых характерных n-грамов из этого кластера в список

остальные кластеры принимаем за единый класс «не содержит»

9) rule_based-функционал:

а. взять отложенную выборку

б. каждый текст из выборки проверить на наличие n-грамов из списка

в. если содержит – относим текст в категорию «содержит утверждения оценки стоимости мировых рынков»

г. считаем метрику по true-разметке

2 года назад
Able2Know
Антон 
39 летРоссия
16 лет в сервисе
Был
23 дня назад