XCodec2開源語音標記器 - 支持多語言語音理解與高質量重建

首頁

Xcodec2

由HKUSTAudio開發

XCodec2是一款支持多語言語音語義理解與高質量語音重建的語音標記器

語音合成

Safetensors

#語音標記器 #高質量語音重建 #多語言語音理解

下載量 32.36k

發布時間 : 1/7/2025

模型概述

XCodec2是一款基於LLaMA語音合成的訓練與推理計算規模優化的語音標記器，具有單向量量化、每秒50個標記的特性，支持多語言語音語義理解與高質量語音重建。

模型特點

單向量量化

支持高效的語音編碼與解碼

高效標記生成

每秒可生成50個標記，實現快速語音處理

多語言支持

支持多語言語音語義理解與重建

高質量重建

能夠實現高質量的語音重建

模型能力

語音編碼

語音解碼

語音語義理解

語音重建

使用案例

語音處理

語音壓縮與重建

將語音信號壓縮為標記並重建為高質量語音

高質量語音重建

多語言語音處理

支持多語言語音的語義理解與處理

跨語言語音應用

🚀 XCodec2 - 語音分詞器

XCodec2 是一款語音分詞器，能夠實現單向量量化，每秒處理 50 個標記，支持多語言語音語義並能進行高質量語音重建，為語音處理領域帶來高效解決方案。

🚀 快速開始

安裝

要使用 xcodec2，請確保已將其安裝。可以使用以下命令進行安裝：

conda create -n xcodec2 python=3.9
conda activate xcodec2
pip install xcodec2  (使用 `xcodec2==0.1.5` 進行編解碼器推理和 Llasa 微調。我已經移除了不必要的依賴項，在我的測試中運行良好。不過，我不確定是否會出現其他問題。如果您希望更穩定，建議使用 `xcodec2==0.1.3`，它在我的編解碼器訓練中能準確對齊。)

使用示例

基礎用法

import torch
import soundfile as sf
from transformers import AutoConfig

from xcodec2.modeling_xcodec2 import XCodec2Model

model_path = "HKUSTAudio/xcodec2"  

model = XCodec2Model.from_pretrained(model_path)
model.eval().cuda()   

wav, sr = sf.read("test.wav")   
wav_tensor = torch.from_numpy(wav).float().unsqueeze(0)  # 形狀: (1, T)

with torch.no_grad():
   # 僅支持 16khz 語音
   # 僅支持單輸入。批量推理請參考下面的鏈接。
    vq_code = model.encode_code(input_waveform=wav_tensor)
    print("代碼:", vq_code )  

    recon_wav = model.decode_code(vq_code).cpu()       # 形狀: (1, 1, T')

sf.write("reconstructed.wav", recon_wav[0, 0, :].numpy(), sr)
print("完成！查看 reconstructed.wav")

其他資源

如果您想訓練自己的 xcodec2、進行批量推理或大規模代碼提取，代碼已在此處發佈。

✨ 主要特性

單向量量化：採用單向量量化技術，提升處理效率。
每秒 50 個標記：具備高效的處理速度，每秒可處理 50 個標記。
多語言語音語義支持和高質量語音重建：支持多語言語音語義，同時能夠實現高質量的語音重建。

📄 許可證

本項目採用 CC BY-NC 4.0 許可證。

🔗 相關論文

LLaSA: Scaling Train Time and Inference Time Compute for LLaMA based Speech Synthesis
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model (AAAI 2025, xcodec 1.0)