matxa-tts-cat-multispeakerオープンソースのテキスト音声変換モデル

ホーム

Matxa Tts Cat Multispeaker

projecte-ainaによって開発

Matcha-TTSアーキテクチャに基づくカタルーニャ語マルチスピーカーテキストトゥスピーチモデル、最適輸送条件フローマッチングトレーニングにより、高速高品質音声合成をサポート

音声合成

PyTorch

その他オープンソースライセンス:Apache-2.0 #カタルーニャ語音声合成 #マルチスピーカー対応 #高速音響モデリング

ダウンロード数 21

リリース時間 : 3/28/2024

モデル概要

Matxa-TTSは非自己回帰のテキストトゥスピーチモデルで、カタルーニャ語向けに設計され、マルチスピーカー音声合成をサポートします。エンコーダ-デコーダアーキテクチャを採用し、最適輸送条件フローマッチングトレーニング手法を組み合わせることで、少ない合成ステップで高品質な音声出力を生成できます。

モデル特徴

マルチスピーカー対応

47のカタルーニャ語スピーカーの音声合成をサポート

高速高品質合成

最適輸送条件フローマッチングトレーニングを採用し、少ない合成ステップで高品質音声を生成

効率的なアーキテクチャ

TransformerベースのU-Netデコーダ構造、1D CNNを使用してメモリ消費を削減し合成速度を向上

言語固有の最適化

カタルーニャ語用音素器と専用データセットを使用して微調整し、現地語サポートを最適化

モデル能力

カタルーニャ語テキストトゥスピーチ

マルチスピーカー音声合成

調整可能な話速と生成温度

高品質音声出力

使用事例

音声合成アプリケーション

音声アシスタント

カタルーニャ語音声アシスタントに自然な音声出力を提供

複数のスピーカーの声から選択可能

オーディオブック

カタルーニャ語テキストを自然な音声に変換

必要に応じて話速とイントネーションを調整可能

支援技術

視覚障害者向けにカタルーニャ語テキスト読み上げ機能を提供

個人の好みに合わせて複数の声から選択可能

🚀 🍵 Matxa-TTS カタルーニャ語マルチスピーカー

🍵 Matxa-TTS は、テキスト読み上げ（TTS）における高速音響モデリングのために設計されたエンコーダ - デコーダアーキテクチャである Matcha-TTS をベースにしています。このモデルは、カタルーニャ語のマルチスピーカーテキスト読み上げシステムの音響特徴生成器として機能します。

🚀 クイックスタート

インストール

このモデルは、オープンソースのテキスト読み上げソフトウェアである espeak - ng を使用してトレーニングされています。カタルーニャ語の音素化器を含む espeak - ng はこちらで見つけることができます。

仮想環境を作成します：

python -m venv /path/to/venv

source /path/to/venv/bin/activate

カタルーニャ語の Matxa - TTS でトレーニングと推論を行うには、提供された espeak - ng をカタルーニャ語の音素化器でコンパイルする必要があります：

git clone https://github.com/projecte-aina/espeak-ng.git

export PYTHON=/path/to/env/<env_name>/bin/python
cd /path/to/espeak-ng
./autogen.sh
./configure --prefix=/path/to/espeak-ng
make
make install

pip cache purge
pip install mecab-python3
pip install unidic-lite

リポジトリをクローンします：

git clone -b dev-cat https://github.com/langtech-bsc/Matcha-TTS.git
cd Matcha-TTS

ソースからパッケージをインストールします：

pip install -e .

推論の実行

PyTorch

音声のエンドツーエンド推論は、カタルーニャ語の Matxa - TTS と一緒に行うことができます。両方のモデル（カタルーニャ語の Matxa - TTS と alVoCat）は、HF ハブからリモートでロードされます。

まず、インストールされた espeak - ng バージョンを含めるために、以下の環境変数をエクスポートします：

export PYTHON=/path/to/your/venv/bin/python
export ESPEAK_DATA_PATH=/path/to/espeak-ng/espeak-ng-data
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/espeak-ng/lib
export PATH="/path/to/espeak-ng/bin:$PATH"

次に、推論スクリプトを実行できます：

cd Matcha-TTS
python3 matcha_vocos_inference.py --output_path=/output/path --text_input="Bon dia Manel, avui anem a la muntanya."

生成されたサンプルの長さスケール（音声速度）と温度を変更することもできます：

python3 matcha_vocos_inference.py --output_path=/output/path --text_input="Bon dia Manel, avui anem a la muntanya." --length_scale=0.8 --temperature=0.7

ONNX

モデルの ONNX バージョンもリリースしています。

トレーニングの実行

チェックポイント全体もリリースされており、トレーニングを続けたり、微調整したりすることができます。詳細はリポジトリの説明を参照してください。

✨ 主な機能

🍵 Matxa-TTS は、TTS の高速音響モデリングのためのエンコーダ - デコーダアーキテクチャである Matcha-TTS をベースにしています。

エンコーダ部分は、テキストエンコーダと音素の持続時間予測に基づいており、これらが一緒に平均化された音響特徴を予測します。
デコーダは、本質的に Grad-TTS からインスパイアされた U - Net バックボーンを持ち、Transformer アーキテクチャに基づいています。ここでは、2D CNN を 1D CNN に置き換えることで、メモリ消費の大幅な削減と高速合成を実現しています。
Matxa-TTS は、最適輸送条件付きフローマッチング（OT - CFM）でトレーニングされた非自己回帰モデルです。これにより、スコアマッチングを使用してトレーニングされたモデルよりも少ない合成ステップで高品質の出力を生成できる ODE ベースのデコーダが得られます。

📦 インストール

上述の「クイックスタート」セクションの「インストール」部分を参照してください。

💻 使用例

基本的な使用法

# 推論スクリプトの基本的な実行
cd Matcha-TTS
python3 matcha_vocos_inference.py --output_path=/output/path --text_input="Bon dia Manel, avui anem a la muntanya."

高度な使用法

# 長さスケールと温度を指定した推論
python3 matcha_vocos_inference.py --output_path=/output/path --text_input="Bon dia Manel, avui anem a la muntanya." --length_scale=0.8 --temperature=0.7

📚 ドキュメント

モデルの意図された用途と制限

このモデルは、カタルーニャ語のマルチスピーカーテキスト読み上げシステムの音響特徴生成器として使用することを目的としています。カタルーニャ語の音素化器を使用して微調整されているため、他の言語で使用すると、出力を音声波形にマッピングした後に理解可能なサンプルが生成されない場合があります。

サンプルの品質は話者によって異なる場合があります。これは、モデルが特定の周波数を学習する際の感度や、各話者のサンプルの品質によるものです。

トレーニング詳細

トレーニングデータ

モデルは 2 つのカタルーニャ語の音声データセットでトレーニングされました。

データセット	言語	時間数	話者数
Festcat	ca	22	11
OpenSLR69	ca	5	36

トレーニング手順

カタルーニャ語の Matcha - TTS は、英語のマルチスピーカーチェックポイントから微調整されました。このチェックポイントは、VCTK データセットを使用してトレーニングされ、モデルの作者によって提供されています。

埋め込み層は、カタルーニャ語の話者数（47）で初期化され、元のハイパーパラメータは保持されました。

トレーニングハイパーパラメータ

バッチサイズ: 32 (x2 GPUs)
学習率: 1e - 4
話者数: 47
n_fft: 1024
n_feats: 80
サンプルレート: 22050
hop_length: 256
win_length: 1024
f_min: 0
f_max: 8000
データ統計:
- mel_mean: -6578195
- mel_std: 2.538758
サンプル数: 13340

評価

エポック 2399 から TensorBoard で得られた検証値*：

val_dur_loss_epoch: 0.38
val_prior_loss_epoch: 0.97
val_diff_loss_epoch: 2.195

（微調整はエポック 1864 から開始されました。以前のエポックは VCTK データセットでトレーニングされています）

引用

このコードがあなたの研究に貢献した場合、以下の文献を引用してください：

@misc{mehta2024matchatts,
      title={Matcha-TTS: A fast TTS architecture with conditional flow matching}, 
      author={Shivam Mehta and Ruibo Tu and Jonas Beskow and Éva Székely and Gustav Eje Henter},
      year={2024},
      eprint={2309.03199},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}