Войти
5/5
ID для подключения по API : silero-stt
Средняя скорость генерации ~ 3.38 сек
Дата выхода: 20/10/2025
Бюджетная
Запустить через APIВходной аудиофайл
[API: payload]| Количество символов в выходном тексте |
|---|
| Цена |
1000 символов |
1 ₽ |
Если у вас большие объемы, то вы можете договориться о специальной цене с оператором
Silero Speech-to-Text — компактная и точная модель распознавания речи.
Преобразует аудиофайл в текст: загружаете речь (в формате WAV и др.), и модель выдаёт текстовую транскрипцию. Работает локально, на процессоре и без лишних зависимостей.

5/5
Опираясь на передовые технологии искусственного интеллекта от OpenAI, модель готова перевести любые голосовые файлы в текст.
Средняя скорость генерации ~ 8.59 сек

5/5
ElevenLabs Speech to text — это современная модель для преобразования речи в текст, обеспечивающая высокоточную транскрипцию аудио и видео контента.
Средняя скорость генерации ~ 12.52 сек

5/5
Silero Vad – сверхлегкая модель для распознавания речи, которая предназначена для распознования речи в аудиофайле
Средняя скорость генерации ~ 124.80 сек

5/5
Nemotron ASR — модель для преобразования речи в текст с настраиваемым уровнем ускорения обработки.
Средняя скорость генерации ~ 62.10 сек