0s
200s
Не менее 3 звезд
Показывать сначала:
5/5
GPT-Audio-Mini - облегчённая аудио модель, которая умеет генерировать аудио на основе текста и аудио.
Средняя скорость генерации ~ 13.34 сек
MiniMax Speech 2.8 Turbo — модель синтеза речи, создающая реалистичное аудио по текстовому описанию.
Средняя скорость генерации ~ 13.89 сек
4.9/5
Nova SR повышает качество аудио, меняет битрейт под выбранный формат и очищает звук.
Средняя скорость генерации ~ 41.20 сек
Voice Changer — это современная модель для изменения голоса в аудио, позволяющая трансформировать голос в выбранный стиль.
Средняя скорость генерации ~ 25.86 сек
Nemotron ASR — модель для преобразования речи в текст с настраиваемым уровнем ускорения обработки.
Средняя скорость генерации ~ 62.10 сек
DeepFilterNet3 — удаление шумов из аудио, улучшение качество звука
Средняя скорость генерации ~ 78.60 сек
4.8/5
Maya — синтез речи с AI: естественное звучание, поддержка эмоций, гибкие параметры голоса для озвучки контента
Средняя скорость генерации ~ 141.10 сек
Silero Vad – сверхлегкая модель для распознавания речи, которая предназначена для распознования речи в аудиофайле
Средняя скорость генерации ~ 124.80 сек
VibeVoice — лёгкая и быстрая модель для синтеза речи, идеальная для реального времени и ресурсоограниченных приложений.
Средняя скорость генерации ~ 116.38 сек
MiniMax Speech 2.6 Turbo — модель синтеза речи, создающая реалистичное аудио по текстовому описанию.
Средняя скорость генерации ~ 11.67 сек
MiniMax Music — Text-to-Audio (v1.5 & v2) — нейросеть для генерации аудио по текстовому описанию. Она создаёт музыку, атмосферные звуки и фоновые композиции в разных жанрах и стилях.
Средняя скорость генерации ~ 90.35 сек
Silero TTS – это высокоскоростная нейросетевая модель синтеза речи (text-to-speech), которая мгновенно преобразует текст в реалистичную, естественно звучащую речь.
Средняя скорость генерации ~ 6.91 сек
Silero STT – это высокоскоростная нейросетевая модель распознавания речи (speech-to-text), которая мгновенно преобразует речь в текст.
Средняя скорость генерации ~ 3.38 сек
Eleven-v3 специализируется на естественном преобразовании текста в речь с поддержкой стриминга и коммерческим использованием.
Средняя скорость генерации ~ 13.46 сек
Chatterbox Speech-to-Speech — это нейросеть для замены голоса в аудиозаписи с сохранением исходной интонации и ритма речи. Она идеально подходит для быстрого преобразования голоса без потери эмоциональной окраски или необходимости перезаписи.
Средняя скорость генерации ~ 55.38 сек