Разработка собственной системы распознавания речи (ASR) для русского языка

Максим18 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

17.09.2025

Описание задачи

Нужна офлайн-система распознавания речи (ASR) на русском языке, обученная с нуля — без использования сторонних или предобученных моделей (Vosk, Whisper, Yandex, Google и т.п.).

Проект выполняется в рамках требований госструктур, поэтому важны:

прозрачность происхождения данных и модели;
отсутствие зависимостей от иностранных вендоров;
возможность предоставить datasheet и документацию.

🔹 Основные требования

Фреймворки: PyTorch, допустимы icefall/k2/lhotse или ESPnet.
Архитектура модели: Conformer-CTC (MVP-вариант).
Обучение:
- с нуля на нашем корпусе (минимум 300–500 часов речи);
- нормализация текста, токенизация (BPE).
Результат работы:
- обученная модель с WER-отчётом;
- экспорт в ONNX + int8-квантизация (для офлайн-работы на CPU);
- CLI-демо для распознавания файлов и микрофона;
- инструкция по запуску (Dockerfile/requirements).
Документация: datasheet модели (описание данных, архитектуры, метрик).