tts - 1.6b - en_frオープンソーステキスト-to-音声モデル - 多言語のリアルタイム音声生成に対応

ホーム

Tts 1.6b En Fr

kyutaiによって開発

京都台テキスト音声変換（TTS）モデルは、ストリーミングテキスト音声変換に使用されるモデルで、リアルタイム音声生成と多言語処理をサポートしています。

音声合成複数言語対応#ストリーミング音声生成 #リアルタイムTTS #多言語TTS

ダウンロード数 1,441

リリース時間 : 6/30/2025

モデル概要

このモデルは階層型Transformerアーキテクチャを採用しており、英語とフランス語のストリーミングテキスト音声生成をサポートし、効率的な生成と音声調整機能を備えています。

モデル特徴

ストリーミング音声生成

完全なテキスト入力を待つ必要はなく、最初の数単語を受け取った後すぐに音声出力を開始でき、リアルタイム性が向上します。

多言語サポート

英語とフランス語の2つの言語のテキスト音声変換をサポートしています。

効率的な生成

CFG蒸留トレーニングにより生成速度を向上させ、バッチ処理が容易で、計算単位時間あたり75倍の音声を生成できます。

音声調整

事前計算された埋め込みを使用した音声調整をサポートしています。

モデル能力

ストリーミングテキスト音声変換

多言語音声生成

リアルタイム音声出力

音声スタイル調整

使用事例

リアルタイム対話

対話シーンの音声生成

対話シーンでリアルタイムに音声応答を生成し、対話体験を向上させます。

低遅延の音声出力を実現

多言語アプリケーション

多言語音声合成

英語とフランス語のコンテンツに自然な音声を生成します。

2つの言語のスムーズな音声出力をサポート

🚀 京都台テキスト読み上げモデルカード

京都台テキスト読み上げ（TTS）モデルは、ストリーミング形式のテキスト読み上げに特化したモデルです。従来のオフライン型のテキスト読み上げモデルとは異なり、完全なテキスト入力を待つ必要がなく、最初の数単語を受け取った段階ですぐに音声出力を開始することができ、音声生成のリアルタイム性を大幅に向上させます。

プロジェクトページ、Colabの使用例、GitHubリポジトリをご覧いただけます。先行版の研究論文も近日公開予定です！

✨ 主な機能

ストリーミング音声生成：一部のテキストを入力した直後に音声出力を開始し、リアルタイムな音声生成を実現します。
多言語対応：英語とフランス語の2言語に対応しています。
効率的な生成：CFG蒸留学習により生成速度が向上し、バッチ処理も容易で、計算単位時間あたり75倍の音声を生成できます。
音声調整：事前計算された埋め込みを使用して音声を調整することができます。

📦 インストール

詳細なインストール手順は、GitHubリポジトリをご参照ください。

💻 使用例

このモデルは、会話シーンを含むストリーミング形式のテキスト読み上げに使用できます。以下に使用例を示します。

基本的な使用法

具体的なコード例は、Colabの使用例を参照してください。

高度な使用法

モデルは事前計算された埋め込みを使用した音声調整をサポートしており、関連する音声埋め込みはtts-voicesリポジトリで見つけることができます。

📚 ドキュメント

モデルの詳細

モデルアーキテクチャ：このモデルは階層型Transformerアーキテクチャを採用しており、トークン化されたテキストを入力とし、Mimiによってトークン化された音声を生成します。詳細はMoshi論文を参照してください。
フレームレート：フレームレートは12.5 Hzで、各音声フレームは32個の音声トークンで表されます。推論時には、生成速度を上げるために少ないトークンを使用することができます。
モデルパラメータ：バックボーンモデルには10億個のパラメータがあり、深層Transformerには6億個のパラメータがあり、Hibikiに似た部分的な重み共有を使用しています。
音声オフセット：音声はテキストに対して16ステップ（1.28秒）オフセットされており、モデルが使用する音響/セマンティック遅延は2です。

モデルの説明

京都台TTSは、デコーダのみのストリーミング音声読み上げモデルです。Moshiのマルチストリームアーキテクチャを利用して、音声ストリームに基づいてテキストストリームをモデル化しています。テキストストリームは音声ストリームに対してオフセットされており、入力された音声からテキストトークンを予測できるようになっています。

属性	詳細
モデルタイプ	ストリーミングテキスト読み上げ
対応言語	英語とフランス語
ライセンス	モデルの重みはCC - BY 4.0ライセンスに従います
リポジトリ	GitHub

使用シーン

直接利用

このモデルは、会話シーンを含むストリーミング形式のテキスト読み上げに使用できます。事前計算された埋め込みを使用して音声を調整することができ、関連する音声埋め込みはtts-voicesリポジトリで見つけることができます。このモデルは分類器なしガイダンス（CFG）を直接サポートしていませんが、CFG蒸留学習により生成速度が向上し、バッチサイズを倍にする必要がありません。バッチ処理が容易で、計算単位時間あたり75倍の音声を生成できます。

学習の詳細

学習パラメータ

モデルは750kステップで学習され、バッチサイズは64、フラグメントの長さは120秒です。その後、24k回の更新でCFG蒸留が行われました。

学習データ

事前学習段階：250万時間の公開音声コンテンツを含む音声コレクションを使用しました。このデータセットについては、whisper - timestampedを実行し、whisper-mediumを使用して合成転写を取得しました。

計算インフラ

事前学習：32個のNvidia H100 GPUを使用して行われました。
CFG蒸留：8個のNvidia H100 GPUを使用して行われました。

🔧 技術詳細

このモデルは階層型Transformerアーキテクチャを採用しており、トークン化されたテキストを処理して音声を生成することができます。独自のマルチストリームアーキテクチャと音声オフセットの設計により、ストリーミング音声生成を実現しています。具体的な技術詳細は、以下の論文を参照してください。

📄 ライセンス

モデルの重みはCC - BY 4.0ライセンスに従います。

モデルカードの作成者

Neil Zeghidour, Eugene Kharitonov, Manu Orsini, Václav Volhejn, Gabriel de Marmiesse, Edouard Grave, Patrick Perez, Laurent Mazaré, Alexandre Défossez