metavoice-1B-v0.1オープンソースTTSモデル - 感情豊かな英語音声を生成、声のクローンと長文合成に対応

ホーム

Metavoice 1B V0.1

metavoiceioによって開発

MetaVoice-1Bは12億パラメータのテキスト音声合成（TTS）ベースモデルで、10万時間の音声データでトレーニングされ、感情的な英語音声の生成に特化し、音声クローニングと長文合成をサポートします。

音声合成英語オープンソースライセンス:Apache-2.0 #ゼロショット音声クローニング #感情的なTTS #ショートサンプルファインチューニング

ダウンロード数 571

リリース時間 : 2/6/2024

モデル概要

MetaVoice-1Bはテキスト音声合成タスクのために設計されたベースモデルで、感情的な英語音声のリズムとイントネーションを生成でき、音声クローニングと長文合成をサポートします。

モデル特徴

感情的な音声生成

感情的な英語音声のリズムとイントネーションを生成でき、不連続な内容を回避します。

音声クローニング

ファインチューニングによる音声クローニングをサポートし、インドアクセントでは1分のトレーニングデータ、アメリカおよびイギリス音声では30秒の参照音声でゼロショットクローニングが可能です。

長文合成

長文合成をサポートし、任意の長さのTTS機能が近日公開予定です。

効率的な推論

Flash DecodingによるKVキャッシュとバッチ処理（異なる長さのテキストを含む）をサポートします。

モデル能力

テキスト音声合成

音声クローニング

長文合成

使用事例

音声合成

パーソナライズされた音声アシスタント

音声アシスタントにパーソナライズされた音声を生成し、ユーザーエクスペリエンスを向上させます。

自然で感情的な音声を生成します。

オーディオブック

テキストコンテンツを音声に変換し、オーディオブック制作に使用します。

長文合成をサポートし、高品質な音声を生成します。

音声クローニング

音声クローニングサービス

少量のサンプルで特定の話者の音声をクローニングします。

インドアクセントでは1分のトレーニングデータ、アメリカおよびイギリス音声では30秒の参照音声でゼロショットクローニングが可能です。

🚀 MetaVoice-1B

MetaVoice-1Bは、12億のパラメータを持つベースモデルで、10万時間の音声データを使ってテキスト読み上げ（TTS: text-to-speech）用に学習されています。このモデルには以下の特長があります。

英語での感情的な音声リズムとトーンを再現。幻聴は発生しません。
ファインチューニングによる声のクローニングをサポート。
- インドの話者については、わずか1分の学習データでも成功例があります。
30秒の参照音声を使ったアメリカ英語とイギリス英語のゼロショットクローニングをサポート。
長文の合成をサポート。

MetaVoice-1BはApache 2.0ライセンスの下で公開されており、制限なく使用できます。

🚀 クイックスタート

最新の使用方法については、Githubを参照してください。

✨ 主な機能

英語での感情的な音声表現
ファインチューニングによる声のクローニング
アメリカ英語とイギリス英語のゼロショットクローニング
長文合成のサポート

📚 ドキュメント

ファインチューニング

最新のファインチューニングの手順については、Githubを参照してください。

今後の予定

長文または任意の長さのTTS
ストリーミング

🔧 技術詳細

アーキテクチャ

テキストと話者情報からEnCodecトークンを予測し、それを波形レベルまで拡散させ、最後に後処理を行って音声をクリーンアップします。

因果的なGPTを使って、EnCodecトークンの最初の2つの階層を予測します。テキストと音声はLLMのコンテキストの一部です。話者情報はトークン埋め込み層での条件付けを通じて渡されます。この話者条件付けは、別途学習された話者検証ネットワークから取得されます。
- 2つの階層は「平坦化された交互」な方法で予測されます。つまり、最初の階層の最初のトークン、次に2番目の階層の最初のトークン、そして最初の階層の2番目のトークンというように予測します。
- モデルのクローニング能力を向上させるために、条件なしサンプリングを使用しています。
- テキストは、512トークンのカスタム学習されたBPEトークナイザーを使ってトークン化されます。
- 他の研究で行われているような意味的トークンの予測は省略しています。これは、必ずしも必要ではないと判断したためです。
最初の2つの階層から残りの6つの階層を予測するために、非因果的（エンコーダースタイル）のトランスフォーマーを使用しています。これは非常に小さいモデル（約1000万のパラメータ）で、試したほとんどの話者に対して広範なゼロショット汎化能力を持っています。非因果的であるため、すべてのタイムステップを並列に予測することができます。
マルチバンド拡散を使って、EnCodecトークンから波形を生成します。元のRVQデコーダーやVOCOSを使うよりも音声が明瞭であることがわかりました。ただし、波形レベルでの拡散により、耳に不快な背景ノイズが残ることがあります。これを次のステップでクリーンアップします。
マルチバンド拡散によって生じたノイズを取り除くために、DeepFilterNetを使用しています。