庫名稱:transformers
語言:
- tr
許可證:mit
基礎模型:microsoft/speecht5_tts
標籤:
- 文本轉語音
- 訓練生成
數據集:
- erenfazlioglu/turkishvoicedataset
模型索引:
- 名稱:SpeechT5 TTS Turkish
結果:[]
SpeechT5 TTS Turkish
本模型是基於microsoft/speecht5_tts在turkishvoicedataset數據集上微調的版本。
在評估集上取得了以下結果:
模型描述
需要更多信息
預期用途與限制
需要更多信息
訓練與評估數據
需要更多信息
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:1e-05
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam,參數為betas=(0.9,0.999)和epsilon=1e-08
- 學習率調度器類型:線性
- 學習率預熱步數:500
- 訓練步數:6000
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
週期 |
步數 |
驗證損失 |
0.4436 |
1.8484 |
1000 |
0.3752 |
0.3822 |
3.6969 |
2000 |
0.3403 |
0.3729 |
5.5453 |
3000 |
0.3233 |
0.3451 |
7.3937 |
4000 |
0.3153 |
0.3315 |
9.2421 |
5000 |
0.3099 |
0.3492 |
11.0906 |
6000 |
0.3079 |
框架版本
- Transformers 4.45.0.dev0
- Pytorch 2.4.1+cu121
- Datasets 3.0.0
- Tokenizers 0.19.1
使用方法
安裝
!pip install datasets soundfile speechbrain
推理
from transformers import pipeline
from datasets import load_dataset
import soundfile as sf
import torch
from IPython.display import Audio
synthesiser = pipeline("text-to-speech", "umarigan/speecht5_tts_tr_v1.0")
embeddings_dataset = load_dataset("umarigan/turkish_voice_dataset_embedded", split="train")
speaker_embedding = torch.tensor(embeddings_dataset[736]["speaker_embeddings"]).unsqueeze(0)
speech = synthesiser("Bir berber bir berbere gel beraber bir berber kuralım demiş", forward_params={"speaker_embeddings": speaker_embedding})
sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
Audio("speech.wav")