Разработка собственной системы распознавания речи (ASR) для русского языка
Описание задачи
Нужна офлайн-система распознавания речи (ASR) на русском языке, обученная с нуля — без использования сторонних или предобученных моделей (Vosk, Whisper, Yandex, Google и т.п.).
Проект выполняется в рамках требований госструктур, поэтому важны:
прозрачность происхождения данных и модели;
отсутствие зависимостей от иностранных вендоров;
возможность предоставить datasheet и документацию.
l
🔹 Основные требования
Фреймворки: PyTorch, допустимы icefall/k2/lhotse или ESPnet.
Архитектура модели: Conformer-CTC (MVP-вариант).
Обучение:
с нуля на нашем корпусе (минимум 300–500 часов речи);
нормализация текста, токенизация (BPE).
Результат работы:
обученная модель с WER-отчётом;
экспорт в ONNX + int8-квантизация (для офлайн-работы на CPU);
CLI-демо для распознавания файлов и микрофона;
инструкция по запуску (Dockerfile/requirements).
Документация: datasheet модели (описание данных, архитектуры, метрик).
🔹 Что мы предоставляем
доступ к части корпуса аудиоданных на русском языке;
сервер/GPU-ренты для обучения (оплачиваются отдельно).
🔹 Бюджет и сроки
Бюджет: $2 000 (фиксировано)
Срок: 6–8 недель (обсуждаемо, в зависимости от организации обучения и качества данных).
🔹 Критерии отбора исполнителя
опыт в разработке ASR (Kaldi, ESPnet, icefall, NeMo);
примеры реализованных проектов / GitHub;
понимание пайплайна: разметка данных, обучение, экспорт, деплой.
🔹 Этапы сдачи проекта
Подготовка пайплайна + обучение тестовой модели (на малом датасете).
Обучение основной модели на корпусе.
Экспорт в ONNX + int8.
Тестирование, документация, передача результата.