speecht5_tts_tr_v1.0开源模型 - 免费将土耳其语文本转换为自然语音

首页

Speecht5 Tts Tr V1.0

由 umarigan 开发

基于Microsoft SpeechT5微调的土耳其语文本转语音模型，支持生成自然语音

语音合成

Transformers

其他开源协议:MIT #土耳其语TTS #语音合成微调 #多说话人支持

下载量 959

发布时间 : 9/23/2024

模型简介

该模型是基于microsoft/speecht5_tts在土耳其语音数据集上微调的文本转语音(TTS)模型，能够将土耳其语文本转换为自然语音输出

模型特点

高质量语音合成

能够生成自然流畅的土耳其语语音

说话人嵌入支持

支持使用特定说话人的语音特征进行合成

轻量级微调

基于预训练SpeechT5模型进行高效微调

模型能力

土耳其语文本转语音

特定说话人语音合成

语音风格转换

使用案例

语音合成应用

语音助手

为土耳其语语音助手提供自然语音输出

有声读物

将土耳其语文本自动转换为语音

辅助技术

视障辅助

为视障用户提供文本朗读功能

🚀 SpeechT5 TTS Turkish

SpeechT5 TTS Turkish 是 microsoft/speecht5_tts 在 turkishvoicedataset 数据集上微调后的版本。该模型在评估集上取得了一定的效果，例如损失率为 0.3079。

🚀 快速开始

安装

!pip install datasets soundfile speechbrain

推理

from transformers import pipeline
from datasets import load_dataset
import soundfile as sf
import torch
from IPython.display import Audio

synthesiser = pipeline("text-to-speech", "umarigan/speecht5_tts_tr_v1.0")

embeddings_dataset = load_dataset("umarigan/turkish_voice_dataset_embedded", split="train")
speaker_embedding = torch.tensor(embeddings_dataset[736]["speaker_embeddings"]).unsqueeze(0)

# Synthesize speech using the embedding
speech = synthesiser("Bir berber bir berbere gel beraber bir berber kuralım demiş", forward_params={"speaker_embeddings": speaker_embedding})

# Save the generated audio to a file
sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])

# Play the audio in the notebook
Audio("speech.wav")

✨ 主要特性

基于 microsoft/speecht5_tts 进行微调，适用于土耳其语语音合成。
在评估集上损失率为 0.3079。

📦 安装指南

!pip install datasets soundfile speechbrain

💻 使用示例

基础用法

from transformers import pipeline
from datasets import load_dataset
import soundfile as sf
import torch
from IPython.display import Audio

synthesiser = pipeline("text-to-speech", "umarigan/speecht5_tts_tr_v1.0")

embeddings_dataset = load_dataset("umarigan/turkish_voice_dataset_embedded", split="train")
speaker_embedding = torch.tensor(embeddings_dataset[736]["speaker_embeddings"]).unsqueeze(0)

# Synthesize speech using the embedding
speech = synthesiser("Bir berber bir berbere gel beraber bir berber kuralım demiş", forward_params={"speaker_embeddings": speaker_embedding})

# Save the generated audio to a file
sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])

# Play the audio in the notebook
Audio("speech.wav")