speecht5_tts-finetuned-nst-daオープンソースモデル - デンマーク語のテキストから音声への効率的な合成に特化

ホーム

Speecht5 Tts Finetuned Nst Da

JackismyShephardによって開発

これはマイクロソフトのSpeechT5モデルをファインチューニングしたデンマーク語テキスト音声合成モデルで、デンマーク語音声合成に特化しています。

音声合成

Transformers

その他オープンソースライセンス:MIT #デンマーク語TTS #音声合成最適化 #低リソース言語

ダウンロード数 44

リリース時間 : 1/1/2024

モデル概要

このモデルはNSTデンマーク語ASRデータベースデータセットを使用してmicrosoft/speecht5_ttsをファインチューニングしたバージョンで、デンマーク語テキスト音声合成に使用されます。

モデル特徴

デンマーク語サポート

デンマーク語音声合成に特化し、デンマーク語オープンソースTTSモデルの空白を埋めます。

軽量な代替案

他のデンマーク語TTSモデルと比較して、よりシンプルでありながら良好な性能を提供します。

音声拡張互換

生成された音声はResembleAI/resemble-enhanceを使用して品質向上が可能です。

モデル能力

デンマーク語テキスト音声合成

短～中長さのテキスト合成

使用事例

音声合成

デンマーク語音声アシスタント

デンマーク語音声アシスタントに音声合成機能を提供

オーディオブック生成

デンマーク語テキストを音声に変換してオーディオブックに利用

🚀 speecht5_tts-finetuned-nst-da

このモデルは、NST Danish ASR Databaseデータセットでmicrosoft/speecht5_ttsをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3692

✨ 主な機能

モデルの説明

デンマーク語は低リソース言語であるため、オンラインで利用可能なオープンソースのデンマーク語のテキスト読み上げ合成器はあまりありません。この記事作成時点で、🤗で利用可能な他の実装は[facebook/seamless - streaming](https://huggingface.co/facebook/seamless - streaming)と[audo/seamless - m4t - v2 - large](https://huggingface.co/audo/seamless - m4t - v2 - large)のみです。このモデルは、出力品質と推論時間の両面で合理的に良好な性能を発揮する、よりシンプルな代替案を提供するために開発されました。さらに、前述のモデルとは異なり、このモデルには🤗上に[JackismyShephard/danish - speech - synthesis](https://huggingface.co/spaces/JackismyShephard/danish - speech - synthesis)というスペースが関連付けられており、デンマーク語のテキスト読み上げ合成の簡単なインターフェースと、オプションの音声強化機能を提供します。

想定される用途と制限

このモデルはデンマーク語のテキスト読み上げ合成を目的としています。

このモデルは、microsoft/speecht5_ttsのデフォルトのトークナイザーを使用しているため、「æ」、「ø」、「å」などの特殊記号を認識しません。このモデルは、短いから中程度の長さの入力テキストに最適で、入力テキストに含まれる語彙トークンは600以下であることが期待されます。さらに、最適な性能を得るには、デンマーク語の話者埋め込みを与える必要があり、理想的には[alexandrainst/nst - da](https://huggingface.co/datasets/alexandrainst/nst - da)のトレーニング分割の音声クリップから[speechbrain/spkrec - xvect - voxceleb](https://huggingface.co/speechbrain/spkrec - xvect - voxceleb)を使用して生成されたものを使用します。

このモデルの出力は対数メルスペクトログラムであり、microsoft/speecht5_hifiganを使用して波形に変換する必要があります。より高品質な出力を得るために、生成された波形は[ResembleAI/resemble - enhance](https://huggingface.co/ResembleAI/resemble - enhance)を使用して強化することができます。

このモデルを推論に使用する方法を示すサンプルスクリプトは[こちら](https://github.com/JackismyShephard/hugging - face - audio - course/blob/main/notebooks/inference/finetuned - nst - da - inference.ipynb)にあります。

トレーニングと評価データ

このモデルは、[alexandrainst/nst - da](https://huggingface.co/datasets/alexandrainst/nst - da)を使用して、損失関数と評価指標の両方にMSEを用いてトレーニングおよび評価されました。データセットは以下のように前処理されました。

「æ」、「ø」、「å」などの特殊文字はラテン文字の同等物に変換され、テキストに数字が含まれるサンプルは削除されました。これは、microsoft/speecht5_ttsのトークナイザーの語彙に含まれていないためです。
トレーニング分割のバランス調整は、280サンプル未満または327サンプルを超える話者を除外することで行われました。
音声は、不要なノイズを除去するために[speechbrain/metricgan - plus - voicebank](https://huggingface.co/speechbrain/metricgan - plus - voicebank)を使用して強化されました。

トレーニング手順

このモデルをトレーニングするためのスクリプト（およびデータの前処理）は[こちら](https://github.com/JackismyShephard/hugging - face - audio - course/blob/main/notebooks/training/finetuned - nst - da - training.ipynb)にあります。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率: 1e - 05
トレーニングバッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザー: Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラーの種類: 線形
学習率スケジューラーのウォームアップ比率: 0.1
エポック数: 20
混合精度トレーニング: Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失
0.4445	1.0	9429	0.4100
0.4169	2.0	18858	0.3955
0.412	3.0	28287	0.3882
0.3982	4.0	37716	0.3826
0.4032	5.0	47145	0.3817
0.3951	6.0	56574	0.3782
0.3971	7.0	66003	0.3782
0.395	8.0	75432	0.3757
0.3952	9.0	84861	0.3749
0.3835	10.0	94290	0.3740
0.3863	11.0	103719	0.3754
0.3845	12.0	113148	0.3732
0.3788	13.0	122577	0.3715
0.3834	14.0	132006	0.3717
0.3894	15.0	141435	0.3718
0.3845	16.0	150864	0.3714
0.3823	17.0	160293	0.3692
0.3858	18.0	169722	0.3703
0.3919	19.0	179151	0.3716
0.3906	20.0	188580	0.3709