Gemini TTS API
5/5
ID для подключения по API : gemini-tts
Средняя скорость генерации ~ 9.60 сек
Дата выхода: 06/04/2026
Стандартная
Запустить через APIВыберите язык:
Как работать с Gemini TTS через API?
Получение API ключа
Для начала получите ваш API ключ в личном кабинете, если ещё не сделали этого.
Это ваш API-ключ с помощью, которого вы можете генерировать. Не сообщайте его никому.
Запрос на выполнение задачи
Теперь необходимо создать задачу на генерацию. Результат вы можете получать по-разному, можно по системе Long-Pooling, либо вы можете задать callback_url и мы отправим вам результат по готовности. Подробнее с тем, как использовать эти способы можете ознакомиться в документации. В данном примере мы рассмотрим способ с получением результата на callback_url.
В этом запросе указаны лишь обязательные параметры, если вам необходимы дополнительные параметры, то можете ознакомится с ними здесь
Пример ответа
Получение результата
На указанный в первом запросе callback_url придёт следующий ответ.
Ознакомиться с другими способами получения результата можете в документации
Параметры для генерации
Это URL, на который будет отправлен ответ от нейросети.
Обязательно
Текст для озвучки.
Значение по умолчанию : Ведущий: Добро пожаловать на подкаст AI Frontiers, где мы рассказываем о последних достижениях в области искусственного интеллекта. Сегодня у нас особый гость. ДокторЧен, спасибо, что присоединились к нам! ДокторЧен: Спасибо, что пригласили меня! Я рада быть здесь. Ведущий: Итак, давайте сразу перейдем к делу. Ваша недавняя статья о поиске нейронной архитектуры вызвала большой резонанс. Не могли бы вы рассказать нашим слушателям, что вдохновило вас на это исследование? ДокторЧен: Безусловно. Все началось с того, что мы заметили, что большинство существующих подходов оптимизируются под неправильные показатели. Мы спросили себя: что, если бы мы могли позволить модели проектироваться самой? Вместо того чтобы исследователи часами подбирали слои, функции активации и гиперпараметры вручную, мы захотели создать систему, которая делает это автоматически, но при этом учитывает не только точность на тестовой выборке, но и вычислительную эффективность, устойчивость к шумам и даже интерпретируемость. Ведущий: Звучит амбициозно. Но если честно, когда я впервые прочитал вашу статью, меня поразило, что вы не просто предложили очередной алгоритм поиска, а поставили под сомнение сами метрики, которые все используют. Вы пишете, что «оптимизация под точность часто ведет к хрупким архитектурам». Не могли бы вы раскрыть эту мысль? ДокторЧен: Конечно. Представьте, что вы строите мост, оптимизируя его только на минимальный вес. Вы получите очень легкую конструкцию, но она рухнет при первом же порыве ветра, которого не было в тестовых условиях. В нейросетях та же история. Многие методы поиска нейронных архитектур (NAS) заточены на то, чтобы максимизировать точность на статичном наборе данных, например ImageNet. Но в реальном мире данные смещаются, появляются новые классы, меняется распределение признаков. В результате модель, блестяще работающая в лаборатории, оказывается бесполезной в production. Мы предложили искать архитектуры, которые не просто хорошо запоминают данные, а обладают внутренней способностью к адаптации. Ведущий: То есть вы говорите о своего рода «мета-архитектуре», которая может подстраиваться под новые условия без полного переобучения? ДокторЧен: Именно. Мы назвали этот подход Self-Designing Architectures (SDA).
Голос.
Значение по умолчанию : Kore
Инструкция по стилю речи.
Версия модели.
Значение по умолчанию : gemini-2.5-flash-tts
Язык синтеза речи.
Значение по умолчанию : Russian (Russia)
Спикеры.
Значение по умолчанию : [ { "voice": "Charon", "speaker_id": "Ведущий" }, { "voice": "Kore", "speaker_id": "ДокторЧен" } ]
Контроль вариативности синтеза.
Значение по умолчанию : 1
Формат выходного аудио.
Значение по умолчанию : mp3

