speecht5_tts_common_voice_5_sv開源瑞典語文本轉語音模型

首頁

Speecht5 Tts Common Voice 5 Sv

由GreenCounsel開發

基於微軟SpeechT5架構微調的瑞典語文本轉語音模型，使用Common Voice數據集訓練

語音合成

Transformers

其他開源協議:MIT #瑞典語TTS #多說話人支持 #語音合成

下載量 27

發布時間 : 6/23/2023

模型概述

該模型能夠將瑞典語文本轉換為自然語音輸出，適用於語音合成應用場景

模型特點

高質量語音合成

基於SpeechT5架構和HiFi-GAN聲碼器，可生成自然流暢的瑞典語語音

多說話人支持

通過x-vector技術實現不同說話人風格的語音合成

特殊字符處理

內置瑞典語特殊字符(如Ä,Å,Ö)的自動轉換處理

模型能力

瑞典語文本轉語音

多說話人語音合成

特殊字符自動處理

使用案例

輔助技術

屏幕閱讀器

為視障用戶提供瑞典語內容的語音輸出

內容創作

有聲內容生成

自動將瑞典語文本轉換為語音用於播客或視頻配音

🚀 瑞典語語音T5文本轉語音模型

該模型是基於Common Voice數據集對 microsoft/speecht5_tts 進行微調後的版本。它在評估集上取得了以下結果：

損失值：0.4621

✨ 主要特性

本模型是在Common Voice數據集中的瑞典語數據上訓練得到的瑞典語SpeechT5模型。可在 https://huggingface.co/spaces/GreenCounsel/SpeechT5-sv 自行測試該模型（無法在Huggingface上運行管道推理）。

📦 安裝指南

#pip install datasets soundfile 
#pip install transformers
#pip install sentencepiece

💻 使用示例

基礎用法

from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, set_seed
import torch

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
model = SpeechT5ForTextToSpeech.from_pretrained("GreenCounsel/speecht5_tts_common_voice_5_sv")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

repl = [
    ('Ä', 'ae'),
    ('Å', 'o'),
    ('Ö', 'oe'),
    ('ä', 'ae'),
    ('å', 'o'),
    ('ö', 'oe'),
    ('ô','oe'),
    ('-',''),
    ('‘',''),
    ('’',''),
    ('“',''),
    ('”',''),

]

from datasets import load_dataset
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")

speaker_embeddings = torch.tensor(embeddings_dataset[7000]["xvector"]).unsqueeze(0)
set_seed(555)

text="Förstår du vad han menar?"
for src, dst in repl:
       text = text.replace(src, dst)
inputs = processor(text=text, return_tensors="pt")

speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)

import soundfile as sf
sf.write("output.wav", speech.numpy(), samplerate=16000)