speecht5_tts_common_voice_5_sv开源瑞典语文本转语音模型

首页

Speecht5 Tts Common Voice 5 Sv

由 GreenCounsel 开发

基于微软SpeechT5架构微调的瑞典语文本转语音模型，使用Common Voice数据集训练

语音合成

Transformers

其他开源协议:MIT #瑞典语TTS #多说话人支持 #语音合成

下载量 27

发布时间 : 6/23/2023

模型简介

该模型能够将瑞典语文本转换为自然语音输出，适用于语音合成应用场景

模型特点

高质量语音合成

基于SpeechT5架构和HiFi-GAN声码器，可生成自然流畅的瑞典语语音

多说话人支持

通过x-vector技术实现不同说话人风格的语音合成

特殊字符处理

内置瑞典语特殊字符(如Ä,Å,Ö)的自动转换处理

模型能力

瑞典语文本转语音

多说话人语音合成

特殊字符自动处理

使用案例

辅助技术

屏幕阅读器

为视障用户提供瑞典语内容的语音输出

内容创作

有声内容生成

自动将瑞典语文本转换为语音用于播客或视频配音

🚀 瑞典语语音T5文本转语音模型

该模型是基于Common Voice数据集对 microsoft/speecht5_tts 进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.4621

✨ 主要特性

本模型是在Common Voice数据集中的瑞典语数据上训练得到的瑞典语SpeechT5模型。可在 https://huggingface.co/spaces/GreenCounsel/SpeechT5-sv 自行测试该模型（无法在Huggingface上运行管道推理）。

📦 安装指南

#pip install datasets soundfile 
#pip install transformers
#pip install sentencepiece

💻 使用示例

基础用法

from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, set_seed
import torch

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
model = SpeechT5ForTextToSpeech.from_pretrained("GreenCounsel/speecht5_tts_common_voice_5_sv")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

repl = [
    ('Ä', 'ae'),
    ('Å', 'o'),
    ('Ö', 'oe'),
    ('ä', 'ae'),
    ('å', 'o'),
    ('ö', 'oe'),
    ('ô','oe'),
    ('-',''),
    ('‘',''),
    ('’',''),
    ('“',''),
    ('”',''),

]

from datasets import load_dataset
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")

speaker_embeddings = torch.tensor(embeddings_dataset[7000]["xvector"]).unsqueeze(0)
set_seed(555)

text="Förstår du vad han menar?"
for src, dst in repl:
       text = text.replace(src, dst)
inputs = processor(text=text, return_tensors="pt")

speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)

import soundfile as sf
sf.write("output.wav", speech.numpy(), samplerate=16000)