模型概述

該模型是基於microsoft/speecht5_tts在土耳其語音數據集上微調的文本轉語音(TTS)模型，能夠將土耳其語文本轉換為自然語音輸出

模型特點

高質量語音合成

能夠生成自然流暢的土耳其語語音

說話人嵌入支持

支持使用特定說話人的語音特徵進行合成

輕量級微調

基於預訓練SpeechT5模型進行高效微調

模型能力

土耳其語文本轉語音

特定說話人語音合成

語音風格轉換

使用案例

語音合成應用

語音助手

為土耳其語語音助手提供自然語音輸出

有聲讀物

將土耳其語文本自動轉換為語音

輔助技術

視障輔助

為視障用戶提供文本朗讀功能

庫名稱：transformers
語言：

tr
許可證：mit
基礎模型：microsoft/speecht5_tts
標籤：
文本轉語音
訓練生成
數據集：
erenfazlioglu/turkishvoicedataset
模型索引：
名稱：SpeechT5 TTS Turkish
結果：[]

SpeechT5 TTS Turkish

本模型是基於microsoft/speecht5_tts在turkishvoicedataset數據集上微調的版本。
在評估集上取得了以下結果：

損失：0.3079

模型描述

需要更多信息

預期用途與限制

需要更多信息

訓練與評估數據

需要更多信息

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：1e-05
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam，參數為betas=(0.9,0.999)和epsilon=1e-08
學習率調度器類型：線性
學習率預熱步數：500
訓練步數：6000
混合精度訓練：Native AMP

訓練結果

訓練損失	週期	步數	驗證損失
0.4436	1.8484	1000	0.3752
0.3822	3.6969	2000	0.3403
0.3729	5.5453	3000	0.3233
0.3451	7.3937	4000	0.3153
0.3315	9.2421	5000	0.3099
0.3492	11.0906	6000	0.3079

框架版本

Transformers 4.45.0.dev0
Pytorch 2.4.1+cu121
Datasets 3.0.0
Tokenizers 0.19.1

使用方法

安裝

!pip install datasets soundfile speechbrain

推理

from transformers import pipeline  
from datasets import load_dataset  
import soundfile as sf  
import torch  
from IPython.display import Audio  

synthesiser = pipeline("text-to-speech", "umarigan/speecht5_tts_tr_v1.0")  

embeddings_dataset = load_dataset("umarigan/turkish_voice_dataset_embedded", split="train")  
speaker_embedding = torch.tensor(embeddings_dataset[736]["speaker_embeddings"]).unsqueeze(0)  

# 使用嵌入合成語音  
speech = synthesiser("Bir berber bir berbere gel beraber bir berber kuralım demiş", forward_params={"speaker_embeddings": speaker_embedding})  

# 將生成的音頻保存到文件  
sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])  

# 在筆記本中播放音頻  
Audio("speech.wav")