开源speecht5_tts - wolof模型，免费适配沃洛夫语，实现高质量文本转语音

首页

Speecht5 Tts Wolof

由 bilalfaye 开发

基于SpeechT5架构微调的沃洛夫语文本转语音(TTS)模型，使用自定义分词器适配沃洛夫语特性

语音合成

Safetensors

其他开源协议:MIT #沃洛夫语语音合成 #低资源语言TTS #定制化分词器

下载量 126

发布时间 : 1/9/2025

模型简介

该模型是基于Microsoft SpeechT5针对沃洛夫语文本转语音任务微调的版本，提供沃洛夫语语音合成能力，能捕捉该语言的细微差别。

模型特点

沃洛夫语专用分词器

使用专为沃洛夫语设计的自定义分词器，优化了语言特性处理

语音合成优化

通过微调捕捉沃洛夫语独特的语音和句法特征

高效生成

支持束搜索和温度控制等参数优化生成质量

模型能力

沃洛夫语文本转语音

多风格语音合成

说话人嵌入支持

使用案例

语音界面

虚拟助手

为沃洛夫语用户提供语音交互能力

无障碍服务

为视障用户转换文本内容为语音

教育应用

语言学习工具

帮助学习者获取沃洛夫语发音参考

🚀 语音T5文本转语音 - 沃洛夫语模型

本模型是基于SpeechT5在沃洛夫语数据集上进行微调的文本转语音（TTS）模型。它使用了专门为沃洛夫语设计的自定义分词器，并调整了基线模型的配置，以适应自定义分词器引入的新词汇。此版本的SpeechT5提供了专门针对沃洛夫语进行优化的语音合成能力。

🚀 快速开始

安装必要依赖

要安装必要的依赖项，请运行以下命令：

!pip install transformers datasets

模型加载和语音生成代码

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
from transformers import SpeechT5HifiGan

def load_speech_model(checkpoint="bilalfaye/speecht5_tts-wolof", vocoder_checkpoint="microsoft/speecht5_hifigan"):
    """
    加载用于文本转语音的SpeechT5模型、处理器和语音编码器。
    
    参数:
        checkpoint (str): SpeechT5 TTS的模型检查点。
        vocoder_checkpoint (str): HiFi-GAN语音编码器的检查点。
    
    返回:
        processor: 模型的处理器。
        model: 加载的SpeechT5模型。
        vocoder: 加载的HiFi-GAN语音编码器。
        device: 模型加载的设备（CPU或GPU）。
    """
    # 检查GPU可用性并相应设置设备
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    # 加载SpeechT5处理器和模型
    processor = SpeechT5Processor.from_pretrained(checkpoint)
    model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint).to(device)  # 将模型移动到正确的设备

    # 加载HiFi-GAN语音编码器
    vocoder = SpeechT5HifiGan.from_pretrained(vocoder_checkpoint).to(device)  # 将语音编码器移动到正确的设备

    return processor, model, vocoder, device

# 示例用法
processor, model, vocoder, device = load_speech_model()

# 验证使用的设备
print(f"模型和语音编码器加载到的设备: {device}")

from datasets import load_dataset
# 加载说话人嵌入（此数据集包含特定说话人的嵌入）
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
from IPython.display import Audio, display

def generate_speech_from_text(text, 
                              speaker_embedding=speaker_embedding,
                              processor=processor,
                              model=model,
                              vocoder=vocoder):            
    """
    使用SpeechT5和HiFi-GAN语音编码器从给定文本生成语音。

    参数:
        text (str): 要转换为语音的输入文本。
        checkpoint (str): SpeechT5 TTS的模型检查点。
        vocoder_checkpoint (str): HiFi-GAN语音编码器的检查点。
        speaker_embedding (torch.Tensor): 说话人嵌入张量。
        processor (SpeechT5Processor): 模型的处理器。
        model (SpeechT5ForTextToSpeech): 加载的SpeechT5模型。
        vocoder (SpeechT5HifiGan): 加载的HiFi-GAN语音编码器。

    返回:
        无
    """
    # 文本转语音生成的参数
    max_text_positions = model.config.max_text_positions  # 令牌限制
    max_length = model.config.max_length * 1.2  # 稍微扩展的最大长度
    min_length = max_length // 3  # 根据最大长度调整
    num_beams = 7  # 使用束搜索以提高质量
    temperature = 0.6  # 降低温度以提高稳定性

    # 对输入文本进行分词并将输入张量移动到正确的设备
    inputs = processor(text=text, return_tensors="pt", padding=True, truncation=True, max_length=max_text_positions)
    inputs = {key: value.to(model.device) for key, value in inputs.items()}  # 将输入移动到设备

    # 生成语音
    speech = model.generate(
        inputs["input_ids"],
        speaker_embeddings=speaker_embedding.to(model.device),  # 确保说话人嵌入也在正确的设备上
        vocoder=vocoder,
        max_length=int(max_length),
        min_length=int(min_length),
        num_beams=num_beams,
        temperature=temperature,
        no_repeat_ngram_size=3,
        repetition_penalty=1.5,
        eos_token_id=None,
        use_cache=True
    )

    # 将语音从计算图中分离并移动到CPU
    speech = speech.detach().cpu().numpy()

    # 使用IPython Audio播放生成的语音
    display(Audio(speech, rate=16000))


# 示例用法
text = "ñu ne ñoom ñooy nattukaay satélite yi"
generate_speech_from_text(text)

✨ 主要特性

该模型基于SpeechT5架构，将语音识别和合成集成到一个统一的框架中。
使用专门为沃洛夫语训练的自定义分词器和调整后的配置，以适应沃洛夫语独特的词汇。
能够将沃洛夫语文本转换为自然流畅的语音，可集成到需要语音接口、虚拟助手或语音合成的应用中，为讲沃洛夫语的社区服务。

📦 安装指南

要安装必要的依赖项，请运行以下命令：

!pip install transformers datasets

💻 使用示例

基础用法

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
from transformers import SpeechT5HifiGan

def load_speech_model(checkpoint="bilalfaye/speecht5_tts-wolof", vocoder_checkpoint="microsoft/speecht5_hifigan"):
    """
    加载用于文本转语音的SpeechT5模型、处理器和语音编码器。
    
    参数:
        checkpoint (str): SpeechT5 TTS的模型检查点。
        vocoder_checkpoint (str): HiFi-GAN语音编码器的检查点。
    
    返回:
        processor: 模型的处理器。
        model: 加载的SpeechT5模型。
        vocoder: 加载的HiFi-GAN语音编码器。
        device: 模型加载的设备（CPU或GPU）。
    """
    # 检查GPU可用性并相应设置设备
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    # 加载SpeechT5处理器和模型
    processor = SpeechT5Processor.from_pretrained(checkpoint)
    model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint).to(device)  # 将模型移动到正确的设备

    # 加载HiFi-GAN语音编码器
    vocoder = SpeechT5HifiGan.from_pretrained(vocoder_checkpoint).to(device)  # 将语音编码器移动到正确的设备

    return processor, model, vocoder, device

# 示例用法
processor, model, vocoder, device = load_speech_model()

# 验证使用的设备
print(f"模型和语音编码器加载到的设备: {device}")

from datasets import load_dataset
# 加载说话人嵌入（此数据集包含特定说话人的嵌入）
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)

import torch
from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
from IPython.display import Audio, display

def generate_speech_from_text(text, 
                              speaker_embedding=speaker_embedding,
                              processor=processor,
                              model=model,
                              vocoder=vocoder):            
    """
    使用SpeechT5和HiFi-GAN语音编码器从给定文本生成语音。

    参数:
        text (str): 要转换为语音的输入文本。
        checkpoint (str): SpeechT5 TTS的模型检查点。
        vocoder_checkpoint (str): HiFi-GAN语音编码器的检查点。
        speaker_embedding (torch.Tensor): 说话人嵌入张量。
        processor (SpeechT5Processor): 模型的处理器。
        model (SpeechT5ForTextToSpeech): 加载的SpeechT5模型。
        vocoder (SpeechT5HifiGan): 加载的HiFi-GAN语音编码器。

    返回:
        无
    """
    # 文本转语音生成的参数
    max_text_positions = model.config.max_text_positions  # 令牌限制
    max_length = model.config.max_length * 1.2  # 稍微扩展的最大长度
    min_length = max_length // 3  # 根据最大长度调整
    num_beams = 7  # 使用束搜索以提高质量
    temperature = 0.6  # 降低温度以提高稳定性

    # 对输入文本进行分词并将输入张量移动到正确的设备
    inputs = processor(text=text, return_tensors="pt", padding=True, truncation=True, max_length=max_text_positions)
    inputs = {key: value.to(model.device) for key, value in inputs.items()}  # 将输入移动到设备

    # 生成语音
    speech = model.generate(
        inputs["input_ids"],
        speaker_embeddings=speaker_embedding.to(model.device),  # 确保说话人嵌入也在正确的设备上
        vocoder=vocoder,
        max_length=int(max_length),
        min_length=int(min_length),
        num_beams=num_beams,
        temperature=temperature,
        no_repeat_ngram_size=3,
        repetition_penalty=1.5,
        eos_token_id=None,
        use_cache=True
    )

    # 将语音从计算图中分离并移动到CPU
    speech = speech.detach().cpu().numpy()

    # 使用IPython Audio播放生成的语音
    display(Audio(speech, rate=16000))


# 示例用法
text = "ñu ne ñoom ñooy nattukaay satélite yi"
generate_speech_from_text(text)