speecht5_vc開源語音轉換模型 - 免費實現語音音色轉換，內容保持不變

首頁

Speecht5 Vc

由microsoft開發

SpeechT5是基於CMU ARCTIC數據集微調的語音轉換模型，支持將一種語音轉換為另一種語音，保持內容不變但改變音色特徵。

說話人處理

Transformers

開源協議:MIT #語音音色轉換 #跨模態語音處理 #統一編碼器-解碼器

下載量 14.40k

發布時間 : 2/2/2023

模型概述

SpeechT5是一個統一模態的編碼器-解碼器預訓練框架，專門用於語音轉換任務。它可以將輸入的語音波形轉換為具有不同音色特徵的輸出語音，同時保留原始語音的內容。

模型特點

統一模態架構

採用共享的編碼器-解碼器網絡處理語音和文本，實現跨模態的統一表示學習

跨模態向量量化

通過潛在單元隨機混合語音/文本狀態，實現文本與語音信息在統一語義空間的對齊

多任務適應性

預訓練框架可適應多種口語處理任務，包括語音識別、合成、翻譯和轉換等

模型能力

語音轉換

音色特徵修改

語音內容保留

使用案例

語音處理

語音風格轉換

將一種說話人的語音風格轉換為另一種風格，適用於配音、語音合成等場景

保持語音內容不變，僅改變音色特徵

語音增強應用

改善語音質量或調整語音特徵，適用於通信、娛樂等領域

🚀 語音T5（語音轉換任務）

本項目是在CMU ARCTIC數據集上針對語音轉換（語音到語音）任務進行微調的SpeechT5模型。該模型能夠將一種語音轉換為另一種語音，為語音處理領域提供了強大的工具。

🚀 快速開始

你可以使用以下代碼將單聲道16kHz的語音波形轉換為另一種語音：

from transformers import SpeechT5Processor, SpeechT5ForSpeechToSpeech, SpeechT5HifiGan
from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_vc")
model = SpeechT5ForSpeechToSpeech.from_pretrained("microsoft/speecht5_vc")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")

# load xvector containing speaker's voice characteristics from a file
import numpy as np
import torch
speaker_embeddings = np.load("xvector_speaker_embedding.npy")
speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0)

speech = model.generate_speech(inputs["input_values"], speaker_embeddings, vocoder=vocoder)

import soundfile as sf
sf.write("speech.wav", speech.numpy(), samplerate=16000)

✨ 主要特性

統一模態框架：受T5（文本到文本轉移變換器）在預訓練自然語言處理模型中成功的啟發，提出了統一模態的SpeechT5框架，探索了用於自監督語音/文本表示學習的編碼器 - 解碼器預訓練。
跨模態向量量化：為了將文本和語音信息對齊到統一的語義空間中，提出了一種跨模態向量量化方法，將語音/文本狀態與潛在單元隨機混合，作為編碼器和解碼器之間的接口。
廣泛的任務適用性：在各種口語語言處理任務中表現出優越性，包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別。

📚 詳細文檔

模型描述

受T5（文本到文本轉移變換器）在預訓練自然語言處理模型中取得成功的啟發，我們提出了一個統一模態的SpeechT5框架，該框架探索了用於自監督語音/文本表示學習的編碼器 - 解碼器預訓練。SpeechT5框架由一個共享的編碼器 - 解碼器網絡和六個特定模態（語音/文本）的預/後網絡組成。在通過預網絡對輸入的語音/文本進行預處理後，共享的編碼器 - 解碼器網絡對序列到序列的轉換進行建模，然後後網絡根據解碼器的輸出生成語音/文本模態的輸出。

利用大規模的無標籤語音和文本數據，我們對SpeechT5進行預訓練，以學習統一模態的表示，希望提高對語音和文本的建模能力。為了將文本和語音信息對齊到這個統一的語義空間中，我們提出了一種跨模態向量量化方法，該方法隨機地將語音/文本狀態與潛在單元混合，作為編碼器和解碼器之間的接口。

大量評估表明，所提出的SpeechT5框架在各種口語語言處理任務中具有優越性，包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別。

預期用途和侷限性

你可以使用此模型進行語音轉換。請參閱模型中心，查找針對你感興趣的任務進行微調的版本。

目前，特徵提取器和模型都支持PyTorch。

📄 許可證

本模型使用的許可證是MIT。

🔗 引用信息

本模型在論文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中被提出，作者為Junyi Ao、Rui Wang、Long Zhou、Chengyi Wang、Shuo Ren、Yu Wu、Shujie Liu、Tom Ko、Qing Li、Yu Zhang、Zhihua Wei、Yao Qian、Jinyu Li、Furu Wei。

BibTeX引用格式如下：

@inproceedings{ao-etal-2022-speecht5,
    title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
    author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
    month = {May},
    year = {2022},
    pages={5723--5738},
}