yandex

Gemini 3.1 Flash TTS API

starstarstarstarstar

5/5

Gemini 3.1 Flash TTS — улучшенная генерация речи из текста на базе Gemini для озвучки контента и голосовых интерфейсов.

ID для подключения по API : gemini-3-1-tts

Средняя скорость генерации ~ 21.48 сек
Дата выхода: 29/04/2026

Аудио

Озвучка текста

Стандартная

Запустить через API
SoTA

Стандартная

Запустить через API
SoTA

Выберите язык:

Как работать с Gemini 3.1 Flash TTS через API?

Получение API ключа

Для начала получите ваш API ключ в личном кабинете, если ещё не сделали этого.

Это ваш API-ключ с помощью, которого вы можете генерировать. Не сообщайте его никому.

Запрос на выполнение задачи

Теперь необходимо создать задачу на генерацию. Результат вы можете получать по-разному, можно по системе Long-Pooling, либо вы можете задать callback_url и мы отправим вам результат по готовности. Подробнее с тем, как использовать эти способы можете ознакомиться в документации. В данном примере мы рассмотрим способ с получением результата на callback_url.

В этом запросе указаны лишь обязательные параметры, если вам необходимы дополнительные параметры, то можете ознакомится с ними здесь

Пример ответа

Получение результата

На указанный в первом запросе callback_url придёт следующий ответ.

Ознакомиться с другими способами получения результата можете в документации

Параметры для генерации

callback_urlurl

Это URL, на который будет отправлен ответ от нейросети.

promptstring

Обязательно

Текст для озвучки.

Значение по умолчанию : Ведущий: Добро пожаловать обратно на ГенАПИ. Доктор Чен, я слышал, сегодня появились важные новости. Что происходит? ДокторЧен: [взволнованно] Gemini TTS только что вышла в прямой эфир на ГенАПИ. Модель преобразования текста в речь от Google, полностью доступная через API прямо сейчас. Ведущий: Подождите, вы серьезно? Это приложение Google с поддержкой нескольких динамиков, верно? ДокторЧен: Да. Вы пишете свой сценарий с тегами динамиков, добавляете инструкции по стилю, и это создает естественное звучание разговора. Два разных голоса, эмоциональные реплики и все такое. Ведущий: Как это звучит? ДокторЧен: Действительно хорошо. Голоса звучат искренне. Можно сказать, что модель понимает контекст, а не только слова. И она поддерживает более 80 языков с одинаковым качеством. Ведущий: Это потрясающе. Итак, с чего же люди начинают? ДокторЧен: Просто зайдите на сайт ГенАПИ, найдите Gemini 3.1 TTS, напишите беседу и нажмите \"Генерировать\". Это ведь так просто

voicestring

Голос.

Значение по умолчанию : Kore

style_instructionsstring

Инструкция по стилю речи.

Значение по умолчанию : Произнесите следующее в теплой, восторженной манере разговора в подкасте. Ведущий энергичен. ДокторЧен хорошо осведомлен в этой теме

language_codestring

Язык синтеза речи.

Значение по умолчанию : Russian (Russia)

speakersarray

Спикеры.

Значение по умолчанию : [ { "voice": "Charon", "speaker_id": "Ведущий" }, { "voice": "Kore", "speaker_id": "ДокторЧен" } ]

temperaturenumeric

Контроль вариативности синтеза.

Значение по умолчанию : 1

output_formatstring

Формат выходного аудио.

Значение по умолчанию : mp3