🚀 Higgs Audio V2: 音声生成における表現力を再定義する
詳細については、オープンソースのリポジトリ https://github.com/boson-ai/higgs-audio をご確認ください!
我々は、Higgs Audio v2をオープンソース化しています。これは、1000万時間以上の音声データと多様なテキストデータで事前学習された強力な音声基礎モデルです。事後学習や微調整を行っていないにも関わらず、Higgs Audio v2は深い言語と音響理解能力により、表現力豊かな音声生成に優れています。
EmergentTTS-Eval では、このモデルは「Emotions」と「Questions」のカテゴリでそれぞれ「gpt-4o-mini-tts」に対して75.7% と 55.7% の勝率を達成しています。また、Seed-TTS EvalやEmotional Speech Dataset (ESD)などの従来のTTSベンチマークでも最先端の性能を発揮しています。さらに、このモデルは、ナレーション中の自動韻律適応、複数言語でのゼロショット自然な多話者対話生成、クローンした声でのメロディー付きハミング、音声と背景音楽の同時生成など、これまでのシステムではめったに見られない機能を示しています。
以下は、このモデルのいくつかの新興機能を示すデモビデオです(ミュートを解除することを忘れないでください)。
あなたのブラウザはvideoタグをサポートしていません。
以下は、モデルの多言語機能とライブ翻訳の機能を紹介する別のデモビデオです(ミュートを解除することを忘れないでください)。
あなたのブラウザはvideoタグをサポートしていません。
🔧 技術詳細
Higgs Audio v2は、上記のアーキテクチャ図に示される「generation variant」を採用しています。その高い性能は、3つの主要な技術革新によって支えられています。
複数のASRモデル、音響イベント分類モデル、および独自の音声理解モデルを活用した自動アノテーションパイプラインを開発しました。このパイプラインを使用して、1000万時間の音声データをクリーニングし、アノテーションを付けました。これをAudioVerseと呼んでいます。独自の理解モデルは、アーキテクチャ図に示される「understanding variant」を採用したHiggs Audio v1 Understandingの上で微調整されています。
セマンティックと音響の両方の特徴を捉える統一的な音声トークナイザをゼロから学習しました。
最小限の計算オーバーヘッドでLLMの音響トークンをモデル化する能力を強化するDualFFNアーキテクチャを提案しました。
音声トークナイザ
我々は、毎秒25フレームで動作し、ビットレートが2倍のトークナイザと比較して音質を維持、さらには向上させる新しい離散化音声トークナイザを導入しています。我々のモデルは、音声、音楽、音響イベントを1つの統一システムでカバーする24 kHzデータで学習する最初のモデルです。また、高速なバッチ推論のためにシンプルな非拡散エンコーダ/デコーダを使用しています。セマンティックと音響の評価で最先端の性能を達成しています。トークナイザの詳細については、https://huggingface.co/bosonai/higgs-audio-v2-tokenizer をご確認ください。
モデルアーキテクチャ -- Dual FFN
Higgs Audio v2は、Llama-3.2-3B をベースに構築されています。モデルの音声トークン処理能力を強化するために、「DualFFN」アーキテクチャを音声アダプタとして組み込んでいます。DualFFNは音声専用のエキスパートとして機能し、最小限の計算オーバーヘッドでLLMの性能を向上させます。我々の実装では、22億のパラメータを持つDualFFNを組み込んでも、元のLLMの学習速度の91%を維持しています。したがって、Higgs Audio v2の総パラメータ数は36億(LLM)+ 22億(Audio Dual FFN)で、Llama-3.2-3Bと同じ学習/推論FLOPsを持っています。アブレーション研究によると、DualFFNを搭載したモデルは、単語誤り率(WER)と話者類似度の点で一貫して対照モデルを上回っています。詳細については、アーキテクチャブログ をご確認ください。
📚 評価
以下は、Higgs Audio v2の4つのベンチマーク、Seed-TTS Eval 、Emotional Speech Dataset (ESD) 、EmergentTTS-Eval 、およびMulti-speaker Evalでの性能です。
Seed-TTS Eval & ESD
我々は、参照テキスト、参照音声、およびターゲットテキストを用いてHiggs Audio v2にゼロショットTTSを実行させます。Seed-TTS EvalとESDの標準評価指標を使用しています。
SeedTTS-Eval
ESD
WER ↓
SIM ↑
WER ↓
SIM (emo2vec) ↑
Cosyvoice2
2.28
65.49
2.71
80.48
Qwen2.5-omni†
2.33
64.10
-
-
ElevenLabs Multilingual V2
1.43
50.00
1.66
65.87
Higgs Audio v1
2.18
66.27
1.49
82.84
Higgs Audio v2 (base)
2.44
67.70
1.78
86.13
EmergentTTS-Eval(「Emotions」と「Questions」)
EmergentTTS-Eval Paper に従い、「alloy」ボイスの「gpt-4o-mini-tts」に対する勝率を報告しています。Higgs Audio v2の結果は「belinda」のボイスで取得されています。判定モデルはGemini 2.5 Proです。
'†' は論文に記載されている強力なプロンプト手法を使用していることを意味します。
多話者評価
我々はまた、Higgs Audio v2の多話者対話生成能力を評価するための多話者評価ベンチマークを設計しました。このベンチマークは3つのサブセットで構成されています。
two-speaker-conversation
:2人の話者が関与する1000の合成対話。2つの参照音声クリップを固定して、ランダムに選択された2人の人物間の4から10の対話の発話に対するモデルの二重声クローン能力を評価します。
small talk (no ref)
:上記と同じ方法で作成された250の合成対話ですが、短い発話と限られたターン数(4 - 6)が特徴です。この場合は参照音声を固定せず、このセットは話者に適切な声を自動的に割り当てるモデルの能力を評価するために設計されています。
small talk (ref)
:上記と同様の250の合成対話ですが、このセットは参照クリップをコンテキストに含めることを意図しているため、さらに短い発話が含まれています。two-speaker-conversation
と同様です。
我々は、これらの3つのサブセットにおける単語誤り率(WER)と、話者内類似度と話者間非類似度の幾何平均を報告しています。Higgs Audio v2以外にも、MoonCast と nari-labs/Dia-1.6B-0626 、多話者対話生成が可能な最も人気のあるオープンソースモデルの2つを評価しました。結果は以下の表にまとめられています。nari-labs/Dia-1.6B-0626 は、発話の長さと出力音声に対する厳しい制限のため、「two-speaker-conversation」サブセットでの実行ができませんでした。
two-speaker-conversation
small talk
small talk (no ref)
WER ↓
Mean Sim & Dis-sim ↑
WER ↓
Mean Sim & Dis-sim ↑
WER ↓
Mean Sim & Dis-sim ↑
MoonCast
38.77
46.02
8.33
63.68
24.65
53.94
nari-labs/Dia-1.6B-0626
-
-
17.62
63.15
19.46
61.14
Higgs Audio v2 (base)
18.88
51.95
11.89
67.92
14.65
55.28
🚀 クイックスタート
まず、higgs-audio をインストールする必要があります。
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
その後、以下のPythonコードスニペットを実行して、テキストを音声に変換してみてください。
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system" ,
content=system_prompt,
),
Message(
role="user" ,
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." ,
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024 ,
temperature=0.3 ,
top_p=0.95 ,
top_k=50 ,
stop_strings=["<|end_of_text|>" , "<|eot_id|>" ],
)
torchaudio.save(f"output.wav" , torch.from_numpy(output.audio)[None , :], output.sampling_rate)
さらに多くのサンプルスクリプトについては、https://github.com/boson-ai/higgs-audio/tree/main/examples をご確認ください。
📄 ライセンス
詳細は LICENSE を参照してください。