speecht5_tts_commonvoice_enオープンソース英語TTSモデル - 無料でテキストを簡単に自然な音声に変換

ホーム

Speecht5 Tts Commonvoice En

Avitas8485によって開発

SpeechT5アーキテクチャに基づく英語テキスト音声変換モデル、CommonVoiceデータセットでファインチューニング済み

音声合成

Transformers

英語オープンソースライセンス:MIT #英語TTS #音声合成 #低リソースファインチューニング

ダウンロード数 18

リリース時間 : 5/24/2023

モデル概要

このモデルは英語テキストを自然な音声出力に変換でき、音声合成アプリケーションに適しています

モデル特徴

高品質音声合成

SpeechT5アーキテクチャに基づく自然な英語音声出力を提供

CommonVoiceデータセットファインチューニング

公開のCommonVoiceデータセットで最適化トレーニングを実施

低検証損失

評価セットで0.4261の損失値を達成

モデル能力

英語テキスト音声変換

音声合成

使用事例

支援技術

スクリーンリーダー

視覚障害ユーザー向けにテキスト内容を音声出力

コンテンツ制作

オーディオブック生成

電子書籍テキストを自動的に音声版に変換

🚀 SpeechT5 TTS English

このモデルは、commonvoiceデータセットでmicrosoft/speecht5_ttsをファインチューニングしたバージョンです。評価セットでは、損失率0.4261を達成しています。

🚀 クイックスタート

このモデルは、microsoft/speecht5_ttsをcommonvoiceデータセットでファインチューニングしたものです。評価セットでは、以下の結果を達成しています。

損失率: 0.4261

✨ 主な機能

このモデルは、テキストを音声に変換するText-to-Speech（TTS）モデルです。microsoft/speecht5_ttsをベースに、commonvoiceデータセットでファインチューニングされています。

📦 インストール

ドキュメントにインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

ドキュメントにコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの説明

詳細な情報が必要です。

想定される用途と制限事項

詳細な情報が必要です。

学習と評価データ

詳細な情報が必要です。

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 1e-05
学習バッチサイズ: 16
評価バッチサイズ: 8
乱数シード: 42
勾配累積ステップ数: 2
総学習バッチサイズ: 32
オプティマイザ: Adam（betas=(0.9,0.999)、epsilon=1e-08）
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 500
学習ステップ数: 4000
混合精度学習: Native AMP

学習結果

学習損失率	エポック数	ステップ数	検証損失率
0.4543	13.61	1000	0.4225
0.4525	27.21	2000	0.4203
0.4359	40.82	3000	0.4228
0.4324	54.42	4000	0.4261

フレームワークのバージョン

Transformers 4.30.0.dev0
Pytorch 2.0.1+cu118
Datasets 2.12.0
Tokenizers 0.13.3

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご