speecht5_vc开源语音转换模型 - 免费实现语音音色转换，内容保持不变

首页

Speecht5 Vc

由 microsoft 开发

SpeechT5是基于CMU ARCTIC数据集微调的语音转换模型，支持将一种语音转换为另一种语音，保持内容不变但改变音色特征。

说话人处理

Transformers

开源协议:MIT #语音音色转换 #跨模态语音处理 #统一编码器-解码器

下载量 14.40k

发布时间 : 2/2/2023

模型简介

SpeechT5是一个统一模态的编码器-解码器预训练框架，专门用于语音转换任务。它可以将输入的语音波形转换为具有不同音色特征的输出语音，同时保留原始语音的内容。

模型特点

统一模态架构

采用共享的编码器-解码器网络处理语音和文本，实现跨模态的统一表示学习

跨模态向量量化

通过潜在单元随机混合语音/文本状态，实现文本与语音信息在统一语义空间的对齐

多任务适应性

预训练框架可适应多种口语处理任务，包括语音识别、合成、翻译和转换等

模型能力

语音转换

音色特征修改

语音内容保留

使用案例

语音处理

语音风格转换

将一种说话人的语音风格转换为另一种风格，适用于配音、语音合成等场景

保持语音内容不变，仅改变音色特征

语音增强应用

改善语音质量或调整语音特征，适用于通信、娱乐等领域

🚀 语音T5（语音转换任务）

本项目是在CMU ARCTIC数据集上针对语音转换（语音到语音）任务进行微调的SpeechT5模型。该模型能够将一种语音转换为另一种语音，为语音处理领域提供了强大的工具。

🚀 快速开始

你可以使用以下代码将单声道16kHz的语音波形转换为另一种语音：

from transformers import SpeechT5Processor, SpeechT5ForSpeechToSpeech, SpeechT5HifiGan
from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_vc")
model = SpeechT5ForSpeechToSpeech.from_pretrained("microsoft/speecht5_vc")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")

# load xvector containing speaker's voice characteristics from a file
import numpy as np
import torch
speaker_embeddings = np.load("xvector_speaker_embedding.npy")
speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0)

speech = model.generate_speech(inputs["input_values"], speaker_embeddings, vocoder=vocoder)

import soundfile as sf
sf.write("speech.wav", speech.numpy(), samplerate=16000)

✨ 主要特性

统一模态框架：受T5（文本到文本转移变换器）在预训练自然语言处理模型中成功的启发，提出了统一模态的SpeechT5框架，探索了用于自监督语音/文本表示学习的编码器 - 解码器预训练。
跨模态向量量化：为了将文本和语音信息对齐到统一的语义空间中，提出了一种跨模态向量量化方法，将语音/文本状态与潜在单元随机混合，作为编码器和解码器之间的接口。
广泛的任务适用性：在各种口语语言处理任务中表现出优越性，包括自动语音识别、语音合成、语音翻译、语音转换、语音增强和说话人识别。

📚 详细文档

模型描述

受T5（文本到文本转移变换器）在预训练自然语言处理模型中取得成功的启发，我们提出了一个统一模态的SpeechT5框架，该框架探索了用于自监督语音/文本表示学习的编码器 - 解码器预训练。SpeechT5框架由一个共享的编码器 - 解码器网络和六个特定模态（语音/文本）的预/后网络组成。在通过预网络对输入的语音/文本进行预处理后，共享的编码器 - 解码器网络对序列到序列的转换进行建模，然后后网络根据解码器的输出生成语音/文本模态的输出。

利用大规模的无标签语音和文本数据，我们对SpeechT5进行预训练，以学习统一模态的表示，希望提高对语音和文本的建模能力。为了将文本和语音信息对齐到这个统一的语义空间中，我们提出了一种跨模态向量量化方法，该方法随机地将语音/文本状态与潜在单元混合，作为编码器和解码器之间的接口。

大量评估表明，所提出的SpeechT5框架在各种口语语言处理任务中具有优越性，包括自动语音识别、语音合成、语音翻译、语音转换、语音增强和说话人识别。

预期用途和局限性

你可以使用此模型进行语音转换。请参阅模型中心，查找针对你感兴趣的任务进行微调的版本。

目前，特征提取器和模型都支持PyTorch。

📄 许可证

本模型使用的许可证是MIT。

🔗 引用信息

本模型在论文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中被提出，作者为Junyi Ao、Rui Wang、Long Zhou、Chengyi Wang、Shuo Ren、Yu Wu、Shujie Liu、Tom Ko、Qing Li、Yu Zhang、Zhihua Wei、Yao Qian、Jinyu Li、Furu Wei。

BibTeX引用格式如下：

@inproceedings{ao-etal-2022-speecht5,
    title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
    author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
    month = {May},
    year = {2022},
    pages={5723--5738},
}