speecht5_ttsオープンソース英語音声合成モデル - 無料で複数の英語アクセントの音声を生成

ホーム

Speecht5 Tts

JBZhang2342によって開発

Microsoft SpeechT5をベースにした英語音声合成モデルで、Common Voiceデータセットでファインチューニングされ、複数の英語アクセントをサポート

音声合成

Transformers

英語オープンソースライセンス:MIT #英語音声合成 #多アクセント対応 #CommonVoiceファインチューニング

ダウンロード数 14

リリース時間 : 11/10/2023

モデル概要

これはテキストを音声に変換する(TTS)モデルで、英語のテキストを自然な音声出力に変換でき、特に異なる英語アクセントに最適化されています

モデル特徴

多アクセント対応

Common Voiceデータセットでファインチューニングされ、複数の英語アクセントを処理可能

高品質音声合成

SpeechT5アーキテクチャをベースに、自然で流暢な音声出力を生成

オープンソースライセンス

MITライセンスを採用し、商業および研究用途を許可

モデル能力

英語テキストトゥスピーチ

多アクセント音声合成

高品質音声生成

使用事例

支援技術

スクリーンリーダー

視覚障害ユーザーに音声出力を提供

コンテンツ制作

ポッドキャスト生成

テキストコンテンツを自動で音声ポッドキャストに変換

教育

言語学習

異なるアクセントの英語発音例を提供

🚀 SpeechT5 TTS English Accented

このモデルは、Common Voiceデータセットでmicrosoft/speecht5_ttsをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5854

📦 インストール

このセクションには元文書にインストール手順が記載されていないため、省略されています。

📚 ドキュメント

モデルの説明

詳細情報は必要です。

想定される用途と制限

詳細情報は必要です。

学習と評価データ

詳細情報は必要です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
学習バッチサイズ: 4
評価バッチサイズ: 4
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 500
学習ステップ: 10000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失
ログなし	1.41	250	0.5448
0.6715	2.82	500	0.5147
0.6715	4.24	750	0.5225
0.5532	5.65	1000	0.5096
0.5532	7.06	1250	0.5293
0.5156	8.47	1500	0.5310
0.5156	9.89	1750	0.5417
0.4874	11.3	2000	0.5185
0.4874	12.71	2250	0.5112
0.4693	14.12	2500	0.5154
0.4693	15.54	2750	0.5148
0.4619	16.95	3000	0.5367
0.4619	18.36	3250	0.5207
0.447	19.77	3500	0.5318
0.447	21.19	3750	0.5286
0.4348	22.6	4000	0.5345
0.4348	24.01	4250	0.5362
0.4237	25.42	4500	0.5568
0.4237	26.84	4750	0.5352
0.4195	28.25	5000	0.5395
0.4195	29.66	5250	0.5487
0.4132	31.07	5500	0.5443
0.4132	32.49	5750	0.5491
0.3975	33.9	6000	0.5465
0.3975	35.31	6250	0.5505
0.396	36.72	6500	0.5450
0.396	38.14	6750	0.5510
0.3884	39.55	7000	0.5517
0.3884	40.96	7250	0.5685
0.383	42.37	7500	0.5622
0.383	43.79	7750	0.5659
0.3806	45.2	8000	0.5636
0.3806	46.61	8250	0.5681
0.3738	48.02	8500	0.5797
0.3738	49.44	8750	0.5741
0.3705	50.85	9000	0.5765
0.3705	52.26	9250	0.5770
0.364	53.67	9500	0.5854
0.364	55.08	9750	0.5806
0.36	56.5	10000	0.5854