Войти
5/5
ID для подключения по API : silero-vad
Средняя скорость генерации ~ 89.85 сек
Дата выхода: 15/01/2026
Бюджетная
Запустить через APIВходное аудио
[API: audio_url]| Запросы |
|---|
| Цена за секунду |
1 |
0.00025 ₽ |
Если у вас большие объемы, то вы можете договориться о специальной цене с оператором
Silero VAD— это модель, которая определяет, где в аудиозаписи есть речь, а где — тишина или шум. Это не полноценный ASR (распознавание текста), а детектор активности голоса: он анализирует аудио и помечает сегменты, где человек говорит, и где тишина/фон. Такая модель помогает выделить речь из записи, чтобы дальше обрабатывать её как текст или аудио.

5/5
Опираясь на передовые технологии искусственного интеллекта от OpenAI, модель готова перевести любые голосовые файлы в текст.
Средняя скорость генерации ~ 8.78 сек

5/5
ElevenLabs Speech to text — это современная модель для преобразования речи в текст, обеспечивающая высокоточную транскрипцию аудио и видео контента.
Средняя скорость генерации ~ 12.52 сек

5/5
Silero STT – это высокоскоростная нейросетевая модель распознавания речи (speech-to-text), которая мгновенно преобразует речь в текст.
Средняя скорость генерации ~ 3.30 сек

5/5
Nemotron ASR — модель для преобразования речи в текст с настраиваемым уровнем ускорения обработки.
Средняя скорость генерации ~ 62.10 сек