Разработка собственной системы распознавания речи (ASR) для русского языка

Максим18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
17.09.2025

Описание задачи

Нужна офлайн-система распознавания речи (ASR) на русском языке, обученная с нуля — без использования сторонних или предобученных моделей (Vosk, Whisper, Yandex, Google и т.п.).

Проект выполняется в рамках требований госструктур, поэтому важны:

  • прозрачность происхождения данных и модели;

  • отсутствие зависимостей от иностранных вендоров;

  • возможность предоставить datasheet и документацию.

l

🔹 Основные требования

  1. Фреймворки: PyTorch, допустимы icefall/k2/lhotse или ESPnet.

  2. Архитектура модели: Conformer-CTC (MVP-вариант).

  3. Обучение:

    • с нуля на нашем корпусе (минимум 300–500 часов речи);

    • нормализация текста, токенизация (BPE).

  4. Результат работы:

    • обученная модель с WER-отчётом;

    • экспорт в ONNX + int8-квантизация (для офлайн-работы на CPU);

    • CLI-демо для распознавания файлов и микрофона;

    • инструкция по запуску (Dockerfile/requirements).

  5. Документация: datasheet модели (описание данных, архитектуры, метрик).

🔹 Что мы предоставляем

  • доступ к части корпуса аудиоданных на русском языке;

  • сервер/GPU-ренты для обучения (оплачиваются отдельно).

🔹 Бюджет и сроки

  • Бюджет: $2 000 (фиксировано)

  • Срок: 6–8 недель (обсуждаемо, в зависимости от организации обучения и качества данных).

🔹 Критерии отбора исполнителя

  • опыт в разработке ASR (Kaldi, ESPnet, icefall, NeMo);

  • примеры реализованных проектов / GitHub;

  • понимание пайплайна: разметка данных, обучение, экспорт, деплой.

🔹 Этапы сдачи проекта

  1. Подготовка пайплайна + обучение тестовой модели (на малом датасете).

  2. Обучение основной модели на корпусе.

  3. Экспорт в ONNX + int8.

  4. Тестирование, документация, передача результата.


Авторизуйтесь для подачи заявки

Заявки фрилансеров