speecht5_finetuned_voxpopuli_ltオープンソースのテキスト読み上げモデル

ホーム

Speecht5 Finetuned Voxpopuli Lt

hungphan111によって開発

microsoft/speecht5_ttsモデルをvoxpopuliデータセットでファインチューニングしたテキスト音声合成モデル

音声合成

Transformers

オープンソースライセンス:MIT #多言語音声合成 #低リソースファインチューニング #VoxPopuli適応

ダウンロード数 19

リリース時間 : 3/2/2025

モデル概要

このモデルはSpeechT5アーキテクチャのテキスト音声合成(TTS)実装で、voxpopuliデータセットに特化してファインチューニングされており、テキストを自然な音声に変換できます。

モデル特徴

高品質音声合成

SpeechT5アーキテクチャに基づき、自然で滑らかな音声出力を生成可能

特定領域最適化

voxpopuliデータセットに特化してファインチューニングされており、この領域でより優れた性能を発揮する可能性がある

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術を使用してトレーニング効率を最適化

モデル能力

テキスト音声合成

音声合成

使用事例

音声アプリケーション

音声アシスタント

仮想アシスタントに自然な音声出力機能を提供

オーディオブック生成

テキストコンテンツを自動的に音声形式に変換

🚀 speecht5_finetuned_voxpopuli_lt

このモデルは、microsoft/speecht5_tts をvoxpopuliデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5588

🚀 クイックスタート

このモデルは、voxpopuliデータセットを使用してmicrosoft/speecht5_ttsをファインチューニングして得られました。評価セットでの損失は0.5588です。

✨ 主な機能

このモデルは、テキストを音声に変換する機能を持っています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

📚 ドキュメント

モデルの説明

詳細な情報は必要です。

想定される用途と制限

詳細な情報は必要です。

学習と評価データ

詳細な情報は必要です。

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 1e-05
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 32
optimizer: OptimizerNames.ADAMW_TORCHを使用し、betas=(0.9,0.999)、epsilon=1e-08、optimizer_args=追加のオプティマイザ引数なし
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
training_steps: 1000
mixed_precision_training: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失
0.7332	24.8649	100	0.6417
0.658	49.8649	200	0.6113
0.603	74.8649	300	0.5863
0.5626	99.8649	400	0.5698
0.5389	124.8649	500	0.5631
0.5248	149.8649	600	0.5639
0.5105	174.8649	700	0.5564
0.5083	199.8649	800	0.5587
0.5038	224.8649	900	0.5544
0.5029	249.8649	1000	0.5588