tts-1.6b-en_fr开源文本转语音模型 - 支持多语言实时语音生成

首页

Tts 1.6b En Fr

由 kyutai 开发

京都台文本转语音（TTS）模型是一款用于流式文本转语音的模型，支持实时语音生成和多语言处理。

语音合成支持多种语言#流式语音生成 #实时TTS #多语言TTS

下载量 1,441

发布时间 : 6/30/2025

模型简介

该模型采用分层Transformer架构，支持英语和法语的流式文本转语音生成，具有高效生成和语音调节功能。

模型特点

流式语音生成

无需等待完整文本输入，接收到前几个单词后即可开始输出音频，提升实时性。

多语言支持

支持英语和法语两种语言的文本转语音。

高效生成

通过CFG蒸馏训练提高生成速度，易于批量处理，每计算单位时间可生成75倍音频。

语音调节

支持通过预计算的嵌入进行语音调节。

模型能力

流式文本转语音

多语言语音生成

实时语音输出

语音风格调节

使用案例

实时对话

对话场景语音生成

在对话场景中实时生成语音响应，提升交互体验。

实现低延迟的语音输出

多语言应用

多语言语音合成

为英语和法语内容生成自然语音。

支持两种语言的流畅语音输出

🚀 京都台文本转语音模型卡片

京都台文本转语音（TTS）模型是一款用于流式文本转语音的模型。与传统离线文本转语音模型不同，它无需等待完整文本输入，在接收到文本的前几个单词后，就能立即开始输出音频，极大提升了语音生成的实时性。

你还可以查看项目页面、Colab示例和GitHub仓库。预印本研究论文即将发布！

✨ 主要特性

流式语音生成：能够在输入部分文本后立即开始输出音频，实现实时语音生成。
多语言支持：支持英语和法语两种语言。
高效生成：通过CFG蒸馏训练，提高了生成速度，且易于批量处理，每计算单位时间可生成75倍音频。
语音调节：支持通过预计算的嵌入进行语音调节。

📦 安装指南

请查看GitHub仓库获取详细的安装步骤。

💻 使用示例

本模型可用于流式文本转语音生成，包括对话场景。以下是一些使用示例：

基础用法

你可以在Colab示例中查看具体的代码示例。

高级用法

模型支持通过预计算的嵌入进行语音调节，你可以在tts-voices仓库中找到相关的语音嵌入。

📚 详细文档

模型详情

模型架构：该模型采用分层Transformer架构，接收分词后的文本，并生成由Mimi进行分词的音频。具体可参考Moshi论文。
帧率：帧率为12.5 Hz，每个音频帧由32个音频令牌表示。在推理时，你可以使用较少的令牌以加快生成速度。
模型参数：骨干模型有10亿个参数，深度Transformer有6亿个参数，并使用了类似于Hibiki的部分权重共享。
音频偏移：音频相对于文本偏移16步（1.28秒），模型使用的声学/语义延迟为2。

模型描述

京都台TTS是一个仅解码器的流式语音转文本模型。它利用Moshi的多流架构，基于语音流对文本流进行建模。文本流相对于音频流进行了偏移，以便模型能够根据输入音频预测文本令牌。

属性	详情
模型类型	流式文本转语音
支持语言	英语和法语
许可证	模型权重遵循CC - BY 4.0许可协议
仓库地址	GitHub

使用场景

直接使用

本模型可用于流式文本转语音生成，包括对话场景。它支持通过预计算的嵌入进行语音调节，相关语音嵌入可在tts-voices仓库中找到。该模型不直接支持无分类器引导（CFG），但通过CFG蒸馏训练提高了生成速度，无需加倍批量大小。它易于批量处理，每计算单位时间可生成75倍音频。

训练详情

训练参数

模型训练了750k步，批量大小为64，片段时长为120秒。随后，进行了24k次更新的CFG蒸馏。

训练数据

预训练阶段：使用了一个包含250万小时公开音频内容的音频集合。对于该数据集，通过运行whisper - timestamped并使用whisper-medium获得了合成转录。

计算基础设施

预训练：使用32个Nvidia H100 GPU进行。
CFG蒸馏：使用8个Nvidia H100 GPU进行。

🔧 技术细节

本模型采用分层Transformer架构，能够处理分词后的文本并生成音频。其独特的多流架构和音频偏移设计，使得模型能够实现流式语音生成。具体的技术细节可参考相关论文：

📄 许可证

模型权重遵循CC - BY 4.0许可协议。

模型卡片作者

Neil Zeghidour, Eugene Kharitonov, Manu Orsini, Václav Volhejn, Gabriel de Marmiesse, Edouard Grave, Patrick Perez, Laurent Mazaré, Alexandre Défossez

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库