ElevenLabs Speech to text API

5/5

ElevenLabs Speech to text — это современная модель для преобразования речи в текст, обеспечивающая высокоточную транскрипцию аудио и видео контента.

ID для подключения по API : speech-to-text

Средняя скорость генерации ~ 24.45 сек
Дата выхода: 07/04/2025

Аудио

Генерация

Распознавание речи

Бюджетная

Запустить через API

SoTA Авторы

Бюджетная

Запустить через API

SoTA Авторы

Выберите язык:

Другой

Как работать с ElevenLabs Speech to text через API?

Получение API ключа

Для начала получите ваш API ключ в личном кабинете, если ещё не сделали этого.

Это ваш API-ключ с помощью, которого вы можете генерировать. Не сообщайте его никому.

Запрос на выполнение задачи

Теперь необходимо создать задачу на генерацию. Результат вы можете получать по-разному, можно по системе Long-Pooling, либо вы можете задать callback_url и мы отправим вам результат по готовности. Подробнее с тем, как использовать эти способы можете ознакомиться в документации. В данном примере мы рассмотрим способ с получением результата на callback_url.

В этом запросе указаны лишь обязательные параметры, если вам необходимы дополнительные параметры, то можете ознакомится с ними здесь

Пример ответа

Получение результата

На указанный в первом запросе callback_url придёт следующий ответ.

Ознакомиться с другими способами получения результата можете в документации

Параметры для генерации

callback_urlurl

Это URL, на который будет отправлен ответ от нейросети.

is_syncboolean

Выбор режима выполнения запроса: синхронно или асинхронно.

Значение по умолчанию : false

audio_urlurl_or_file

Обязательно

Запись речи.

language_codestring

Язык входного аудио.

tag_audio_eventsboolean

Пометка аудио-событий.

Значение по умолчанию : true

diarizeboolean

Диаризация.

Значение по умолчанию : true

keytermsarray

Ключевые слова.

modelstring

Версия нейросети.

Значение по умолчанию : v1

Категории

Задачи

Популярные модели