🚀 speecht5_tts-finetuned-nst-da
このモデルは、NST Danish ASR Databaseデータセットでmicrosoft/speecht5_ttsをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
✨ 主な機能
モデルの説明
デンマーク語は低リソース言語であるため、オンラインで利用可能なオープンソースのデンマーク語のテキスト読み上げ合成器はあまりありません。この記事作成時点で、🤗で利用可能な他の実装は[facebook/seamless - streaming](https://huggingface.co/facebook/seamless - streaming)と[audo/seamless - m4t - v2 - large](https://huggingface.co/audo/seamless - m4t - v2 - large)のみです。このモデルは、出力品質と推論時間の両面で合理的に良好な性能を発揮する、よりシンプルな代替案を提供するために開発されました。さらに、前述のモデルとは異なり、このモデルには🤗上に[JackismyShephard/danish - speech - synthesis](https://huggingface.co/spaces/JackismyShephard/danish - speech - synthesis)というスペースが関連付けられており、デンマーク語のテキスト読み上げ合成の簡単なインターフェースと、オプションの音声強化機能を提供します。
想定される用途と制限
このモデルはデンマーク語のテキスト読み上げ合成を目的としています。
このモデルは、microsoft/speecht5_ttsのデフォルトのトークナイザーを使用しているため、「æ」、「ø」、「å」などの特殊記号を認識しません。このモデルは、短いから中程度の長さの入力テキストに最適で、入力テキストに含まれる語彙トークンは600以下であることが期待されます。さらに、最適な性能を得るには、デンマーク語の話者埋め込みを与える必要があり、理想的には[alexandrainst/nst - da](https://huggingface.co/datasets/alexandrainst/nst - da)のトレーニング分割の音声クリップから[speechbrain/spkrec - xvect - voxceleb](https://huggingface.co/speechbrain/spkrec - xvect - voxceleb)を使用して生成されたものを使用します。
このモデルの出力は対数メルスペクトログラムであり、microsoft/speecht5_hifiganを使用して波形に変換する必要があります。より高品質な出力を得るために、生成された波形は[ResembleAI/resemble - enhance](https://huggingface.co/ResembleAI/resemble - enhance)を使用して強化することができます。
このモデルを推論に使用する方法を示すサンプルスクリプトは[こちら](https://github.com/JackismyShephard/hugging - face - audio - course/blob/main/notebooks/inference/finetuned - nst - da - inference.ipynb)にあります。
トレーニングと評価データ
このモデルは、[alexandrainst/nst - da](https://huggingface.co/datasets/alexandrainst/nst - da)を使用して、損失関数と評価指標の両方にMSEを用いてトレーニングおよび評価されました。データセットは以下のように前処理されました。
- 「æ」、「ø」、「å」などの特殊文字はラテン文字の同等物に変換され、テキストに数字が含まれるサンプルは削除されました。これは、microsoft/speecht5_ttsのトークナイザーの語彙に含まれていないためです。
- トレーニング分割のバランス調整は、280サンプル未満または327サンプルを超える話者を除外することで行われました。
- 音声は、不要なノイズを除去するために[speechbrain/metricgan - plus - voicebank](https://huggingface.co/speechbrain/metricgan - plus - voicebank)を使用して強化されました。
トレーニング手順
このモデルをトレーニングするためのスクリプト(およびデータの前処理)は[こちら](https://github.com/JackismyShephard/hugging - face - audio - course/blob/main/notebooks/training/finetuned - nst - da - training.ipynb)にあります。
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率: 1e - 05
- トレーニングバッチサイズ: 16
- 評価バッチサイズ: 16
- シード: 42
- オプティマイザー: Adam(ベータ=(0.9, 0.999)、イプシロン=1e - 08)
- 学習率スケジューラーの種類: 線形
- 学習率スケジューラーのウォームアップ比率: 0.1
- エポック数: 20
- 混合精度トレーニング: Native AMP
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
0.4445 |
1.0 |
9429 |
0.4100 |
0.4169 |
2.0 |
18858 |
0.3955 |
0.412 |
3.0 |
28287 |
0.3882 |
0.3982 |
4.0 |
37716 |
0.3826 |
0.4032 |
5.0 |
47145 |
0.3817 |
0.3951 |
6.0 |
56574 |
0.3782 |
0.3971 |
7.0 |
66003 |
0.3782 |
0.395 |
8.0 |
75432 |
0.3757 |
0.3952 |
9.0 |
84861 |
0.3749 |
0.3835 |
10.0 |
94290 |
0.3740 |
0.3863 |
11.0 |
103719 |
0.3754 |
0.3845 |
12.0 |
113148 |
0.3732 |
0.3788 |
13.0 |
122577 |
0.3715 |
0.3834 |
14.0 |
132006 |
0.3717 |
0.3894 |
15.0 |
141435 |
0.3718 |
0.3845 |
16.0 |
150864 |
0.3714 |
0.3823 |
17.0 |
160293 |
0.3692 |
0.3858 |
18.0 |
169722 |
0.3703 |
0.3919 |
19.0 |
179151 |
0.3716 |
0.3906 |
20.0 |
188580 |
0.3709 |
フレームワークのバージョン
- Transformers 4.37.2
- Pytorch 2.1.1+cu121
- Datasets 2.17.0
- Tokenizers 0.15.2
📄 ライセンス
このモデルはMITライセンスの下で提供されています。