T

Tts 1.6b En Fr

由 kyutai 开发
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
下载量 1,441
发布时间 : 6/30/2025

模型简介

该模型采用分层Transformer架构,支持英语和法语的流式文本转语音生成,具有高效生成和语音调节功能。

模型特点

流式语音生成
无需等待完整文本输入,接收到前几个单词后即可开始输出音频,提升实时性。
多语言支持
支持英语和法语两种语言的文本转语音。
高效生成
通过CFG蒸馏训练提高生成速度,易于批量处理,每计算单位时间可生成75倍音频。
语音调节
支持通过预计算的嵌入进行语音调节。

模型能力

流式文本转语音
多语言语音生成
实时语音输出
语音风格调节

使用案例

实时对话
对话场景语音生成
在对话场景中实时生成语音响应,提升交互体验。
实现低延迟的语音输出
多语言应用
多语言语音合成
为英语和法语内容生成自然语音。
支持两种语言的流畅语音输出
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase