zlm_b64_le5_s8000オープンソース音声合成モデル - ファインチューニングを基にした明瞭で自然な音声効果の実現

Zlm B64 Le5 S8000

mikhail-panzoによって開発

microsoft/speecht5_ttsをファインチューニングした音声合成モデルで、未知のデータセットでトレーニングされ、検証損失は0.3771です。

ダウンロード数 29

リリース時間 : 4/28/2024

モデル概要

このモデルはmicrosoft/speecht5_ttsをファインチューニングした音声合成(TTS)モデルで、具体的な用途とトレーニングデータは明記されていません。

効率的なファインチューニング

事前トレーニング済みのSpeechT5モデルを基にファインチューニングを行い、トレーニングステップ数は8000ステップに達し、検証損失は0.3771まで低下しました。

最適化されたトレーニング設定

Adamオプティマイザを使用し、学習率1e-05、バッチサイズ64、線形学習率スケジューリングと2000ステップのウォームアップを採用しています。

テキストから音声への変換

音声合成

音声合成アプリケーション

音声アシスタント

音声アシスタントの自然な音声生成に使用可能

オーディオブック

テキストコンテンツを音声に変換し、オーディオブックの制作に利用可能