開源speecht5_tts - wolof模型，免費適配沃洛夫語，實現高質量文本轉語音

首頁

Speecht5 Tts Wolof

由bilalfaye開發

基於SpeechT5架構微調的沃洛夫語文本轉語音(TTS)模型，使用自定義分詞器適配沃洛夫語特性

語音合成

Safetensors

其他開源協議:MIT #沃洛夫語語音合成 #低資源語言TTS #定製化分詞器

下載量 126

發布時間 : 1/9/2025

模型概述

該模型是基於Microsoft SpeechT5針對沃洛夫語文本轉語音任務微調的版本，提供沃洛夫語語音合成能力，能捕捉該語言的細微差別。

模型特點

沃洛夫語專用分詞器

使用專為沃洛夫語設計的自定義分詞器，優化了語言特性處理

語音合成優化

通過微調捕捉沃洛夫語獨特的語音和句法特徵

高效生成

支持束搜索和溫度控制等參數優化生成質量

模型能力

沃洛夫語文本轉語音

多風格語音合成

說話人嵌入支持

使用案例

語音界面

虛擬助手

為沃洛夫語用戶提供語音交互能力

無障礙服務

為視障用戶轉換文本內容為語音

教育應用

語言學習工具

幫助學習者獲取沃洛夫語發音參考

🚀 語音T5文本轉語音 - 沃洛夫語模型

本模型是基於SpeechT5在沃洛夫語數據集上進行微調的文本轉語音（TTS）模型。它使用了專門為沃洛夫語設計的自定義分詞器，並調整了基線模型的配置，以適應自定義分詞器引入的新詞彙。此版本的SpeechT5提供了專門針對沃洛夫語進行優化的語音合成能力。

🚀 快速開始

安裝必要依賴

要安裝必要的依賴項，請運行以下命令：

!pip install transformers datasets

模型加載和語音生成代碼

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
from transformers import SpeechT5HifiGan

def load_speech_model(checkpoint="bilalfaye/speecht5_tts-wolof", vocoder_checkpoint="microsoft/speecht5_hifigan"):
    """
    加載用於文本轉語音的SpeechT5模型、處理器和語音編碼器。
    
    參數:
        checkpoint (str): SpeechT5 TTS的模型檢查點。
        vocoder_checkpoint (str): HiFi-GAN語音編碼器的檢查點。
    
    返回:
        processor: 模型的處理器。
        model: 加載的SpeechT5模型。
        vocoder: 加載的HiFi-GAN語音編碼器。
        device: 模型加載的設備（CPU或GPU）。
    """
    # 檢查GPU可用性並相應設置設備
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    # 加載SpeechT5處理器和模型
    processor = SpeechT5Processor.from_pretrained(checkpoint)
    model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint).to(device)  # 將模型移動到正確的設備

    # 加載HiFi-GAN語音編碼器
    vocoder = SpeechT5HifiGan.from_pretrained(vocoder_checkpoint).to(device)  # 將語音編碼器移動到正確的設備

    return processor, model, vocoder, device

# 示例用法
processor, model, vocoder, device = load_speech_model()

# 驗證使用的設備
print(f"模型和語音編碼器加載到的設備: {device}")

from datasets import load_dataset
# 加載說話人嵌入（此數據集包含特定說話人的嵌入）
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
from IPython.display import Audio, display

def generate_speech_from_text(text, 
                              speaker_embedding=speaker_embedding,
                              processor=processor,
                              model=model,
                              vocoder=vocoder):            
    """
    使用SpeechT5和HiFi-GAN語音編碼器從給定文本生成語音。

    參數:
        text (str): 要轉換為語音的輸入文本。
        checkpoint (str): SpeechT5 TTS的模型檢查點。
        vocoder_checkpoint (str): HiFi-GAN語音編碼器的檢查點。
        speaker_embedding (torch.Tensor): 說話人嵌入張量。
        processor (SpeechT5Processor): 模型的處理器。
        model (SpeechT5ForTextToSpeech): 加載的SpeechT5模型。
        vocoder (SpeechT5HifiGan): 加載的HiFi-GAN語音編碼器。

    返回:
        無
    """
    # 文本轉語音生成的參數
    max_text_positions = model.config.max_text_positions  # 令牌限制
    max_length = model.config.max_length * 1.2  # 稍微擴展的最大長度
    min_length = max_length // 3  # 根據最大長度調整
    num_beams = 7  # 使用束搜索以提高質量
    temperature = 0.6  # 降低溫度以提高穩定性

    # 對輸入文本進行分詞並將輸入張量移動到正確的設備
    inputs = processor(text=text, return_tensors="pt", padding=True, truncation=True, max_length=max_text_positions)
    inputs = {key: value.to(model.device) for key, value in inputs.items()}  # 將輸入移動到設備

    # 生成語音
    speech = model.generate(
        inputs["input_ids"],
        speaker_embeddings=speaker_embedding.to(model.device),  # 確保說話人嵌入也在正確的設備上
        vocoder=vocoder,
        max_length=int(max_length),
        min_length=int(min_length),
        num_beams=num_beams,
        temperature=temperature,
        no_repeat_ngram_size=3,
        repetition_penalty=1.5,
        eos_token_id=None,
        use_cache=True
    )

    # 將語音從計算圖中分離並移動到CPU
    speech = speech.detach().cpu().numpy()

    # 使用IPython Audio播放生成的語音
    display(Audio(speech, rate=16000))


# 示例用法
text = "ñu ne ñoom ñooy nattukaay satélite yi"
generate_speech_from_text(text)

✨ 主要特性

該模型基於SpeechT5架構，將語音識別和合成集成到一個統一的框架中。
使用專門為沃洛夫語訓練的自定義分詞器和調整後的配置，以適應沃洛夫語獨特的詞彙。
能夠將沃洛夫語文本轉換為自然流暢的語音，可集成到需要語音接口、虛擬助手或語音合成的應用中，為講沃洛夫語的社區服務。

📦 安裝指南

要安裝必要的依賴項，請運行以下命令：

!pip install transformers datasets

💻 使用示例

基礎用法

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
from transformers import SpeechT5HifiGan

def load_speech_model(checkpoint="bilalfaye/speecht5_tts-wolof", vocoder_checkpoint="microsoft/speecht5_hifigan"):
    """
    加載用於文本轉語音的SpeechT5模型、處理器和語音編碼器。
    
    參數:
        checkpoint (str): SpeechT5 TTS的模型檢查點。
        vocoder_checkpoint (str): HiFi-GAN語音編碼器的檢查點。
    
    返回:
        processor: 模型的處理器。
        model: 加載的SpeechT5模型。
        vocoder: 加載的HiFi-GAN語音編碼器。
        device: 模型加載的設備（CPU或GPU）。
    """
    # 檢查GPU可用性並相應設置設備
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    # 加載SpeechT5處理器和模型
    processor = SpeechT5Processor.from_pretrained(checkpoint)
    model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint).to(device)  # 將模型移動到正確的設備

    # 加載HiFi-GAN語音編碼器
    vocoder = SpeechT5HifiGan.from_pretrained(vocoder_checkpoint).to(device)  # 將語音編碼器移動到正確的設備

    return processor, model, vocoder, device

# 示例用法
processor, model, vocoder, device = load_speech_model()

# 驗證使用的設備
print(f"模型和語音編碼器加載到的設備: {device}")

from datasets import load_dataset
# 加載說話人嵌入（此數據集包含特定說話人的嵌入）
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
from IPython.display import Audio, display

def generate_speech_from_text(text, 
                              speaker_embedding=speaker_embedding,
                              processor=processor,
                              model=model,
                              vocoder=vocoder):            
    """
    使用SpeechT5和HiFi-GAN語音編碼器從給定文本生成語音。

    參數:
        text (str): 要轉換為語音的輸入文本。
        checkpoint (str): SpeechT5 TTS的模型檢查點。
        vocoder_checkpoint (str): HiFi-GAN語音編碼器的檢查點。
        speaker_embedding (torch.Tensor): 說話人嵌入張量。
        processor (SpeechT5Processor): 模型的處理器。
        model (SpeechT5ForTextToSpeech): 加載的SpeechT5模型。
        vocoder (SpeechT5HifiGan): 加載的HiFi-GAN語音編碼器。

    返回:
        無
    """
    # 文本轉語音生成的參數
    max_text_positions = model.config.max_text_positions  # 令牌限制
    max_length = model.config.max_length * 1.2  # 稍微擴展的最大長度
    min_length = max_length // 3  # 根據最大長度調整
    num_beams = 7  # 使用束搜索以提高質量
    temperature = 0.6  # 降低溫度以提高穩定性

    # 對輸入文本進行分詞並將輸入張量移動到正確的設備
    inputs = processor(text=text, return_tensors="pt", padding=True, truncation=True, max_length=max_text_positions)
    inputs = {key: value.to(model.device) for key, value in inputs.items()}  # 將輸入移動到設備

    # 生成語音
    speech = model.generate(
        inputs["input_ids"],
        speaker_embeddings=speaker_embedding.to(model.device),  # 確保說話人嵌入也在正確的設備上
        vocoder=vocoder,
        max_length=int(max_length),
        min_length=int(min_length),
        num_beams=num_beams,
        temperature=temperature,
        no_repeat_ngram_size=3,
        repetition_penalty=1.5,
        eos_token_id=None,
        use_cache=True
    )

    # 將語音從計算圖中分離並移動到CPU
    speech = speech.detach().cpu().numpy()

    # 使用IPython Audio播放生成的語音
    display(Audio(speech, rate=16000))


# 示例用法
text = "ñu ne ñoom ñooy nattukaay satélite yi"
generate_speech_from_text(text)