emova_speech_tokenizer_hf開源語音分詞器 - 支持中英文，靈活控制語音風格

首頁

Emova Speech Tokenizer Hf

由Emova-ollm開發

EMOVA語音分詞器是一個支持中英文的離散語音分詞器，採用語義-聲學解耦設計，支持靈活語音風格控制。

文本生成音頻

Transformers

支持多種語言開源協議:Apache-2.0 #雙語語音分詞 #語義-聲學解耦 #語音風格控制

下載量 895

發布時間 : 12/23/2024

模型概述

該模型是一個離散語音分詞器，包含語音轉單元(S2U)分詞器和單元轉語音(U2S)解碼器，能夠實現視覺、語言和語音模態間的無縫全模態對齊，並支持包括說話人、情感和音高在內的靈活語音風格控制。

模型特點

語義-聲學解耦設計

解耦輸入語音的語義內容和聲學風格，僅使用前者生成語音標記，實現與LLM高語義嵌入空間的無縫對齊

雙語分詞支持

支持使用相同語音碼本對中文和英文語音進行分詞

靈活語音風格控制

支持24種語音風格控制(2種說話人×3種音高×4種情感組合)

離散語音分詞

通過有限標量量化器(FSQ)將語音離散化為語音單元，便於後續處理

模型能力

語音轉單元(S2U)

單元轉語音(U2S)

語音風格控制

中英文語音處理

使用案例

語音合成

情感化語音合成

根據輸入文本和指定的情感參數生成帶有特定情感的語音

可生成憤怒、開心、中性、悲傷四種情感的語音

多風格語音合成

控制生成的語音在說話人、音高和語速等方面的風格

支持24種不同風格組合的語音輸出

語音處理

語音特徵提取

將語音信號轉換為離散的語音單元表示

提取的音素和音調信息可用於後續語音處理任務

🚀 EMOVA語音分詞器HF

EMOVA語音分詞器HF是用於訓練EMOVA系列模型的官方語音分詞器。它採用語義 - 聲學解耦設計，不僅能實現視覺、語言和語音模態間的無縫全模態對齊，還支持靈活的語音風格控制，包括說話人、情感和音高。

🤗 HuggingFace | 📄 論文 | 🌐 項目頁面 | 💻 Github | 💻 EMOVA-Github

✨ 主要特性

離散語音分詞器：包含基於SPIRAL的語音到單元（S2U） 分詞器，用於捕捉輸入語音的語音和聲調信息，然後通過有限標量量化器（FSQ） 將其離散化為離散語音單元；還有基於VITS的單元到語音（U2S） 去分詞器，用於從語音單元重建語音信號。
語義 - 聲學解耦：為了使語音單元與大語言模型的高語義嵌入空間無縫對齊，我們選擇將輸入語音的語義內容和聲學風格解耦，僅使用前者來生成語音令牌。
雙語分詞：EMOVA語音分詞器使用相同的語音碼本支持中文和英文語音分詞。
靈活的語音風格控制：由於語義 - 聲學解耦，EMOVA語音分詞器支持24種語音風格控制（即2個說話人、3種音高和4種情感）。更多詳細信息請查看使用方法。

📦 安裝指南

克隆此倉庫並使用conda創建EMOVA虛擬環境。我們的代碼已在NVIDIA A800/H20 GPU和Ascend 910B3 NPU服務器上驗證，其他設備也可能適用。

初始化conda環境：

git clone https://github.com/emova-ollm/EMOVA_speech_tokenizer.git
conda create -n emova python=3.10 -y
conda activate emova

安裝所需的包（注意，GPU和NPU的安裝指令不同）：

# 必要時升級pip和setuptools
pip install -U pip setuptools

cd emova_speech_tokenizer
pip install -e . # 適用於NVIDIA GPU（如A800和H20）
pip install -e .[npu] # 或者適用於Ascend NPU（如910B3）

💻 使用示例

基礎用法

import random
from transformers import AutoModel
import torch

### 如果你想使用Ascend NPU，請取消註釋
# import torch_npu
# from torch_npu.contrib import transfer_to_npu

# 加載預訓練模型
model = AutoModel.from_pretrained("Emova-ollm/emova_speech_tokenizer_hf", torch_dtype=torch.float32, trust_remote_code=True).eval().cuda()

# 語音到單元（S2U）
wav_file = "./examples/s2u/example.wav"
speech_unit = model.encode(wav_file)
print(speech_unit)

# 單元到語音（U2S）
emotion = random.choice(['angry', 'happy', 'neutral', 'sad'])
speed = random.choice(['normal', 'fast', 'slow'])
pitch = random.choice(['normal', 'high', 'low'])
gender = random.choice(['female', 'male'])
condition = f'gender-{gender}_emotion-{emotion}_speed-{speed}_pitch-{pitch}'

output_wav_file = f'./examples/u2s/{condition}_output.wav'
model.decode(speech_unit, condition=condition, output_wav_file=output_wav_file)

⚠️ 重要提示

在使用前，請先完成安裝步驟！

📚 詳細文檔

屬性	詳情
模型類型	用於訓練EMOVA系列模型的語音分詞器
訓練數據	未提及

📄 許可證

本項目採用Apache-2.0許可證。

📚 引用

如果您發現我們的模型、代碼或論文有幫助，請考慮引用我們的論文並給我們點個星！

@article{chen2024emova,
  title={Emova: Empowering language models to see, hear and speak with vivid emotions},
  author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
  journal={arXiv preprint arXiv:2409.18042},
  year={2024}
}