yandex

Gemini TTS API

starstarstarstarstar

5/5

Gemini TTS - новая нейросеть, которая преобразует текст в речь по ролям и подходит для массовых аудиосценариев.

ID для подключения по API : gemini-tts

Средняя скорость генерации ~ 9.60 сек
Дата выхода: 06/04/2026

Аудио

Озвучка текста

Стандартная

Запустить через API
SoTA

Стандартная

Запустить через API
SoTA

Выберите язык:

Как работать с Gemini TTS через API?

Получение API ключа

Для начала получите ваш API ключ в личном кабинете, если ещё не сделали этого.

Это ваш API-ключ с помощью, которого вы можете генерировать. Не сообщайте его никому.

Запрос на выполнение задачи

Теперь необходимо создать задачу на генерацию. Результат вы можете получать по-разному, можно по системе Long-Pooling, либо вы можете задать callback_url и мы отправим вам результат по готовности. Подробнее с тем, как использовать эти способы можете ознакомиться в документации. В данном примере мы рассмотрим способ с получением результата на callback_url.

В этом запросе указаны лишь обязательные параметры, если вам необходимы дополнительные параметры, то можете ознакомится с ними здесь

Пример ответа

Получение результата

На указанный в первом запросе callback_url придёт следующий ответ.

Ознакомиться с другими способами получения результата можете в документации

Параметры для генерации

callback_urlurl

Это URL, на который будет отправлен ответ от нейросети.

promptstring

Обязательно

Текст для озвучки.

Значение по умолчанию : Ведущий: Добро пожаловать на подкаст AI Frontiers, где мы рассказываем о последних достижениях в области искусственного интеллекта. Сегодня у нас особый гость. ДокторЧен, спасибо, что присоединились к нам! ДокторЧен: Спасибо, что пригласили меня! Я рада быть здесь. Ведущий: Итак, давайте сразу перейдем к делу. Ваша недавняя статья о поиске нейронной архитектуры вызвала большой резонанс. Не могли бы вы рассказать нашим слушателям, что вдохновило вас на это исследование? ДокторЧен: Безусловно. Все началось с того, что мы заметили, что большинство существующих подходов оптимизируются под неправильные показатели. Мы спросили себя: что, если бы мы могли позволить модели проектироваться самой? Вместо того чтобы исследователи часами подбирали слои, функции активации и гиперпараметры вручную, мы захотели создать систему, которая делает это автоматически, но при этом учитывает не только точность на тестовой выборке, но и вычислительную эффективность, устойчивость к шумам и даже интерпретируемость. Ведущий: Звучит амбициозно. Но если честно, когда я впервые прочитал вашу статью, меня поразило, что вы не просто предложили очередной алгоритм поиска, а поставили под сомнение сами метрики, которые все используют. Вы пишете, что «оптимизация под точность часто ведет к хрупким архитектурам». Не могли бы вы раскрыть эту мысль? ДокторЧен: Конечно. Представьте, что вы строите мост, оптимизируя его только на минимальный вес. Вы получите очень легкую конструкцию, но она рухнет при первом же порыве ветра, которого не было в тестовых условиях. В нейросетях та же история. Многие методы поиска нейронных архитектур (NAS) заточены на то, чтобы максимизировать точность на статичном наборе данных, например ImageNet. Но в реальном мире данные смещаются, появляются новые классы, меняется распределение признаков. В результате модель, блестяще работающая в лаборатории, оказывается бесполезной в production. Мы предложили искать архитектуры, которые не просто хорошо запоминают данные, а обладают внутренней способностью к адаптации. Ведущий: То есть вы говорите о своего рода «мета-архитектуре», которая может подстраиваться под новые условия без полного переобучения? ДокторЧен: Именно. Мы назвали этот подход Self-Designing Architectures (SDA).

voicestring

Голос.

Значение по умолчанию : Kore

style_instructionsstring

Инструкция по стилю речи.

modelstring

Версия модели.

Значение по умолчанию : gemini-2.5-flash-tts

language_codestring

Язык синтеза речи.

Значение по умолчанию : Russian (Russia)

speakersarray

Спикеры.

Значение по умолчанию : [ { "voice": "Charon", "speaker_id": "Ведущий" }, { "voice": "Kore", "speaker_id": "ДокторЧен" } ]

temperaturenumeric

Контроль вариативности синтеза.

Значение по умолчанию : 1

output_formatstring

Формат выходного аудио.

Значение по умолчанию : mp3