Higgs Audio V2開源音頻模型 - 基於海量數據預訓練，免費生成豐富表現力音頻

首頁

Higgs Audio V2 Generation 3B Base

由bosonai開發

Higgs Audio V2是一個強大的音頻基礎模型，在超過1000萬小時的音頻數據和多樣化的文本數據上進行了預訓練，能夠生成表現力豐富的音頻。

語音合成

Safetensors

支持多種語言開源協議:其他 #多語言語音生成 #零樣本韻律控制 #高表現力音頻

下載量 515

發布時間 : 7/1/2025

模型概述

Higgs Audio V2是一個音頻生成模型，專注於表現力豐富的音頻生成，支持多語言和多種音頻任務。

模型特點

表現力豐富的音頻生成

模型在表現力豐富的音頻生成方面表現出色，能夠自動適應韻律和情感。

多語言支持

能夠進行零樣本生成多種語言的自然多說話人對話。

先進的性能

在多個基準測試中取得了優異的成績，超過了多個知名模型。

獨特的能力

具備自動適應韻律、零樣本生成旋律哼唱、同時生成語音和背景音樂等能力。

模型能力

文本到語音轉換

多語言對話生成

旋律哼唱生成

語音和背景音樂同時生成

情感語音生成

使用案例

語音生成

情感語音生成

生成具有豐富情感的語音

在EmergentTTS-Eval的“情感”類別上以75.7%的勝率超過gpt-4o-mini-tts

多語言對話生成

生成自然的多說話人對話

在多說話人評估基準中表現優異

音樂生成

旋律哼唱生成

用克隆語音進行零樣本生成旋律哼唱

🚀 Higgs Audio V2：重新定義音頻生成的表現力

我們開源了 Higgs Audio v2，這是一個強大的音頻基礎模型，在超過 1000 萬小時的音頻數據和多樣化的文本數據上進行了預訓練。儘管沒有進行後訓練或微調，但由於其對語言和聲學的深入理解，Higgs Audio v2 在表現力豐富的音頻生成方面表現出色。

更多詳情請查看我們的開源倉庫：https://github.com/boson-ai/higgs-audio ！

在 EmergentTTS-Eval 上，該模型在“情感”和“問題”類別上分別以 75.7% 和 55.7% 的勝率超過了 “gpt-4o-mini-tts”。它在傳統 TTS 基準測試（如 Seed-TTS Eval 和情感語音數據集 (ESD)）上也取得了最先進的性能。此外，該模型還展示了以往系統中罕見的能力，包括在敘述過程中自動適應韻律、零樣本生成多種語言的自然多說話人對話、用克隆語音進行零樣本生成旋律哼唱，以及同時生成語音和背景音樂。

以下是展示其部分新興能力的演示視頻（記得打開聲音）：

以下是展示該模型多語言能力以及如何實現即時翻譯的另一個演示視頻（記得打開聲音）：

🚀 快速開始

你需要先安裝 higgs-audio：

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

之後，嘗試運行以下 Python 代碼片段將文本轉換為語音：

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
    "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

你也可以查看 https://github.com/boson-ai/higgs-audio/tree/main/examples 以獲取更多示例腳本。

✨ 主要特性

表現力豐富的音頻生成：儘管沒有進行後訓練或微調，但由於其對語言和聲學的深入理解，在表現力豐富的音頻生成方面表現出色。
多語言支持：能夠進行零樣本生成多種語言的自然多說話人對話。
先進的性能：在多個基準測試中取得了優異的成績，超過了多個知名模型。
獨特的能力：具備自動適應韻律、零樣本生成旋律哼唱、同時生成語音和背景音樂等能力。

📦 安裝指南

你需要先安裝 higgs-audio：

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

💻 使用示例

基礎用法

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
    "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

📚 詳細文檔

評估

以下是 Higgs Audio v2 在四個基準測試 Seed-TTS Eval、情感語音數據集 (ESD)、EmergentTTS-Eval 和多說話人評估中的性能：

Seed-TTS Eval & ESD

我們使用參考文本、參考音頻和目標文本對 Higgs Audio v2 進行零樣本 TTS 提示。我們使用 Seed-TTS Eval 和 ESD 的標準評估指標。

	SeedTTS-Eval		ESD
	WER ↓	SIM ↑	WER ↓	SIM (emo2vec) ↑
Cosyvoice2	2.28	65.49	2.71	80.48
Qwen2.5-omni†	2.33	64.10	-	-
ElevenLabs Multilingual V2	1.43	50.00	1.66	65.87
Higgs Audio v1	2.18	66.27	1.49	82.84
Higgs Audio v2 (base)	2.44	67.70	1.78	86.13

EmergentTTS-Eval（“情感”和“問題”）

根據 EmergentTTS-Eval 論文，我們報告了在“alloy”語音下相對於 “gpt-4o-mini-tts” 的勝率。Higgs Audio v2 的結果是使用 “belinda” 語音獲得的。評判模型是 Gemini 2.5 Pro。

模型	情感 (%) ↑	問題 (%) ↑
Higgs Audio v2 (base)	75.71%	55.71%
gpt-4o-audio-preview†	61.64%	47.85%
Hume.AI	61.60%	43.21%
基線：gpt-4o-mini-tts	50.00%	50.00%
Qwen 2.5 Omni†	41.60%	51.78%
minimax/speech-02-hd	40.86%	47.32%
ElevenLabs Multilingual v2	30.35%	39.46%
DeepGram Aura-2	29.28%	48.21%
Sesame csm-1B	15.96%	31.78%

^{_{'†' 表示使用論文中描述的強提示方法。}}

多說話人評估

我們還設計了一個多說話人評估基準，以評估 Higgs Audio v2 在多說話人對話生成方面的能力。該基準包含三個子集：

two-speaker-conversation：1000 個涉及兩個說話人的合成對話。我們固定兩個參考音頻片段，以評估模型在隨機選擇的兩個人物之間 4 到 10 個對話的雙語音克隆能力。
small talk (no ref)：250 個以上述相同方式策劃的合成對話，但特點是短髮言和有限的輪數（4 - 6），在這種情況下我們不固定參考音頻，此集合旨在評估模型自動為說話人分配合適語音的能力。
small talk (ref)：250 個與上述類似的合成對話，但發言更短，因為此集合旨在在其上下文中包含參考片段，類似於 two-speaker-conversation。

我們報告了這三個子集的單詞錯誤率 (WER) 以及說話人內相似度和說話人間不相似度之間的幾何平均值。除了 Higgs Audio v2，我們還評估了 MoonCast 和 nari-labs/Dia-1.6B-0626，這是兩個最流行的能夠進行多說話人對話生成的開源模型。結果總結在下表中。由於 nari-labs/Dia-1.6B-0626 對發言長度和輸出音頻有嚴格限制，我們無法在 “two-speaker-conversation” 子集上運行該模型。

	雙人對話		閒聊		閒聊（無參考）
	WER ↓	平均相似度和不相似度 ↑	WER ↓	平均相似度和不相似度 ↑	WER ↓	平均相似度和不相似度 ↑
MoonCast	38.77	46.02	8.33	63.68	24.65	53.94
nari-labs/Dia-1.6B-0626	-	-	17.62	63.15	19.46	61.14
Higgs Audio v2 (base)	18.88	51.95	11.89	67.92	14.65	55.28

🔧 技術細節

Higgs Audio v2 採用了上圖架構圖中所示的“生成變體”。其強大的性能得益於三項關鍵技術創新：

我們開發了一個自動化標註管道，該管道利用了多個自動語音識別 (ASR) 模型、聲音事件分類模型和我們內部的音頻理解模型。使用這個管道，我們清理並標註了 1000 萬小時的音頻數據，我們將其稱為 AudioVerse。內部理解模型是在 Higgs Audio v1 理解模型的基礎上進行微調的，該模型採用了架構圖中所示的“理解變體”。
我們從頭開始訓練了一個統一的音頻分詞器，該分詞器能夠捕捉語義和聲學特徵。
我們提出了 DualFFN 架構，該架構以最小的計算開銷增強了大語言模型 (LLM) 對聲學標記的建模能力。

音頻分詞器

我們引入了一種新的離散化音頻分詞器，該分詞器的運行速度僅為每秒 25 幀，同時與比特率高出一倍的分詞器相比，能夠保持甚至提高音頻質量。我們的模型是第一個在 24 kHz 數據上進行訓練的模型，該數據在一個統一的系統中涵蓋了語音、音樂和聲音事件。它還使用了一個簡單的非擴散編碼器/解碼器進行快速批量推理。該分詞器在語義和聲學評估中取得了最先進的性能。有關該分詞器的更多信息，請查看 https://huggingface.co/bosonai/higgs-audio-v2-tokenizer。

模型架構——Dual FFN

Higgs Audio v2 基於 Llama-3.2-3B 構建。為了增強模型處理音頻標記的能力，我們引入了 “DualFFN” 架構作為音頻適配器。DualFFN 作為特定於音頻的專家，以最小的計算開銷提升了大語言模型的性能。我們的實現表明，在加入具有 22 億參數的 DualFFN 後，原始大語言模型的訓練速度保留了 91%。因此，Higgs Audio v2 的總參數數量為 36 億（大語言模型）+ 22 億（音頻 Dual FFN），並且其訓練/推理的浮點運算次數與 Llama-3.2-3B 相同。消融實驗表明，配備 DualFFN 的模型在單詞錯誤率 (WER) 和說話人相似度方面始終優於未配備的模型。更多信息請參閱我們的架構博客。