SpeechT5-fine-tune-enオープンソース英文音声合成モデル - 技術分野のテキスト音声を無料で生成

ホーム

Speecht5 Fine Tune En

Solo448によって開発

マイクロソフトのSpeechT5モデルをファインチューニングした英語音声合成(TTS)モデルで、技術分野のテキスト音声生成に特化

音声合成

Transformers

英語オープンソースライセンス:MIT #英語音声合成 #技術文書読み上げ #低リソースファインチューニング

ダウンロード数 16

リリース時間 : 10/13/2024

モデル概要

このモデルはmicrosoft/speecht5_ttsをTTS_English_Technical_dataデータセットでファインチューニングしたバージョンで、技術分野の英語テキスト音声生成に使用

モデル特徴

技術分野最適化

技術分野のテキストに特化して最適化されており、専門用語や技術用語をより適切に処理可能

効率的なトレーニング

勾配累積と混合精度トレーニング技術を採用し、トレーニング効率を向上

安定した収束

トレーニング過程で損失値が安定して減少し、最終検証損失は0.4473を達成

モデル能力

英語テキスト音声変換

技術分野音声合成

高品質音声生成

使用事例

教育技術

技術文書読み上げ

技術文書やチュートリアルを音声に変換し、学習を容易に

クリアで自然な音声出力を生成

アクセシビリティ

視覚障害者支援

視覚障害ユーザー向けに技術文書やウェブコンテンツを読み上げ

専門用語の正確な発音を提供

🚀 SpeechT5-fine-tune-en

このモデルは、microsoft/speecht5_tts を TTS_English_Technical_data データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4473

🚀 クイックスタート

このモデルは、音声合成タスクに特化したファインチューニング済みモデルです。特定の英語データセットを使用して訓練されています。

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

このドキュメントには具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの説明

このドキュメントにはモデルに関する詳細情報が不足しているため、このセクションは省略されます。

想定される用途と制限

このドキュメントには想定される用途と制限に関する詳細情報が不足しているため、このセクションは省略されます。

訓練と評価データ

このドキュメントには訓練と評価データに関する詳細情報が不足しているため、このセクションは省略されます。

訓練手順

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0001
訓練バッチサイズ: 4
評価バッチサイズ: 2
シード: 42
勾配累積ステップ数: 8
総訓練バッチサイズ: 32
オプティマイザ: betas=(0.9,0.999)、epsilon=1e-08 の adamw_torch を使用。追加のオプティマイザ引数はありません。
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 100
訓練ステップ数: 1000
混合精度訓練: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失
4.6694	0.3583	100	0.5087
4.3795	0.7165	200	0.4933
4.1725	1.0748	300	0.4727
4.061	1.4330	400	0.4695
3.9896	1.7913	500	0.4633
3.941	2.1496	600	0.4580
3.8944	2.5078	700	0.4538
3.8968	2.8661	800	0.4522
3.79	3.2244	900	0.4499
3.8059	3.5826	1000	0.4473