tts-1.6b-en_fr開源文本轉語音模型 - 支持多語言即時語音生成

首頁

Tts 1.6b En Fr

由kyutai開發

京都臺文本轉語音（TTS）模型是一款用於流式文本轉語音的模型，支持即時語音生成和多語言處理。

語音合成支持多種語言#流式語音生成 #即時TTS #多語言TTS

下載量 1,441

發布時間 : 6/30/2025

模型概述

該模型採用分層Transformer架構，支持英語和法語的流式文本轉語音生成，具有高效生成和語音調節功能。

模型特點

流式語音生成

無需等待完整文本輸入，接收到前幾個單詞後即可開始輸出音頻，提升即時性。

多語言支持

支持英語和法語兩種語言的文本轉語音。

高效生成

通過CFG蒸餾訓練提高生成速度，易於批量處理，每計算單位時間可生成75倍音頻。

語音調節

支持通過預計算的嵌入進行語音調節。

模型能力

流式文本轉語音

多語言語音生成

即時語音輸出

語音風格調節

使用案例

即時對話

對話場景語音生成

在對話場景中即時生成語音響應，提升交互體驗。

實現低延遲的語音輸出

多語言應用

多語言語音合成

為英語和法語內容生成自然語音。

支持兩種語言的流暢語音輸出

🚀 京都臺文本轉語音模型卡片

京都臺文本轉語音（TTS）模型是一款用於流式文本轉語音的模型。與傳統離線文本轉語音模型不同，它無需等待完整文本輸入，在接收到文本的前幾個單詞後，就能立即開始輸出音頻，極大提升了語音生成的即時性。

你還可以查看項目頁面、Colab示例和GitHub倉庫。預印本研究論文即將發佈！

✨ 主要特性

流式語音生成：能夠在輸入部分文本後立即開始輸出音頻，實現即時語音生成。
多語言支持：支持英語和法語兩種語言。
高效生成：通過CFG蒸餾訓練，提高了生成速度，且易於批量處理，每計算單位時間可生成75倍音頻。
語音調節：支持通過預計算的嵌入進行語音調節。

📦 安裝指南

請查看GitHub倉庫獲取詳細的安裝步驟。

💻 使用示例

本模型可用於流式文本轉語音生成，包括對話場景。以下是一些使用示例：

基礎用法

你可以在Colab示例中查看具體的代碼示例。

高級用法

模型支持通過預計算的嵌入進行語音調節，你可以在tts-voices倉庫中找到相關的語音嵌入。

📚 詳細文檔

模型詳情

模型架構：該模型採用分層Transformer架構，接收分詞後的文本，並生成由Mimi進行分詞的音頻。具體可參考Moshi論文。
幀率：幀率為12.5 Hz，每個音頻幀由32個音頻令牌表示。在推理時，你可以使用較少的令牌以加快生成速度。
模型參數：骨幹模型有10億個參數，深度Transformer有6億個參數，並使用了類似於Hibiki的部分權重共享。
音頻偏移：音頻相對於文本偏移16步（1.28秒），模型使用的聲學/語義延遲為2。

模型描述

京都臺TTS是一個僅解碼器的流式語音轉文本模型。它利用Moshi的多流架構，基於語音流對文本流進行建模。文本流相對於音頻流進行了偏移，以便模型能夠根據輸入音頻預測文本令牌。

屬性	詳情
模型類型	流式文本轉語音
支持語言	英語和法語
許可證	模型權重遵循CC - BY 4.0許可協議
倉庫地址	GitHub

使用場景

直接使用

本模型可用於流式文本轉語音生成，包括對話場景。它支持通過預計算的嵌入進行語音調節，相關語音嵌入可在tts-voices倉庫中找到。該模型不直接支持無分類器引導（CFG），但通過CFG蒸餾訓練提高了生成速度，無需加倍批量大小。它易於批量處理，每計算單位時間可生成75倍音頻。

訓練詳情

訓練參數

模型訓練了750k步，批量大小為64，片段時長為120秒。隨後，進行了24k次更新的CFG蒸餾。

訓練數據

預訓練階段：使用了一個包含250萬小時公開音頻內容的音頻集合。對於該數據集，通過運行whisper - timestamped並使用whisper-medium獲得了合成轉錄。

計算基礎設施

預訓練：使用32個Nvidia H100 GPU進行。
CFG蒸餾：使用8個Nvidia H100 GPU進行。

🔧 技術細節

本模型採用分層Transformer架構，能夠處理分詞後的文本並生成音頻。其獨特的多流架構和音頻偏移設計，使得模型能夠實現流式語音生成。具體的技術細節可參考相關論文：

📄 許可證

模型權重遵循CC - BY 4.0許可協議。

模型卡片作者

Neil Zeghidour, Eugene Kharitonov, Manu Orsini, Václav Volhejn, Gabriel de Marmiesse, Edouard Grave, Patrick Perez, Laurent Mazaré, Alexandre Défossez

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫