Higgs Audio V2オープンソースオーディオモデル - 大量のデータに基づく事前学習により、無料で表现力に富んだオーディオを生成

ホーム

Higgs Audio V2 Generation 3B Base

bosonaiによって開発

Higgs Audio V2は強力なオーディオ基礎モデルで、1000万時間を超えるオーディオデータと多様なテキストデータで事前学習され、表现力豊かなオーディオを生成できます。

音声合成

Safetensors

複数言語対応オープンソースライセンス:その他 #多言語音声生成 #ゼロサンプル韻律制御 #高表现力オーディオ

ダウンロード数 515

リリース時間 : 7/1/2025

モデル概要

Higgs Audio V2はオーディオ生成モデルで、表现力豊かなオーディオ生成に特化し、多言語と様々なオーディオタスクをサポートします。

モデル特徴

表现力豊かなオーディオ生成

モデルは表现力豊かなオーディオ生成に優れており、韻律と感情に自動的に適応できます。

多言語対応

ゼロサンプルで複数の言語の自然な多話者対話を生成できます。

先進的な性能

複数のベンチマークテストで優れた成績を収め、複数の著名なモデルを上回っています。

独特な能力

韻律に自動的に適応、ゼロサンプルでメロディーの哼鳴を生成、音声とバックグラウンドミュージックを同時に生成するなどの能力を備えています。

モデル能力

テキストから音声への変換

多言語対話生成

メロディーの哼鳴生成

音声とバックグラウンドミュージックの同時生成

感情付き音声生成

使用事例

音声生成

感情付き音声生成

豊かな感情を持った音声を生成します

EmergentTTS - Evalの「感情」カテゴリで75.7%の勝率でgpt - 4o - mini - ttsを上回りました

多言語対話生成

自然な多話者対話を生成します

多話者評価ベンチマークで優れた成績を収めました

音楽生成

メロディーの哼鳴生成

クローン音声でゼロサンプルでメロディーの哼鳴を生成します

🚀 Higgs Audio V2: 音声生成における表現力を再定義する

詳細については、オープンソースのリポジトリ https://github.com/boson-ai/higgs-audio をご確認ください！

我々は、Higgs Audio v2をオープンソース化しています。これは、1000万時間以上の音声データと多様なテキストデータで事前学習された強力な音声基礎モデルです。事後学習や微調整を行っていないにも関わらず、Higgs Audio v2は深い言語と音響理解能力により、表現力豊かな音声生成に優れています。

EmergentTTS-Evalでは、このモデルは「Emotions」と「Questions」のカテゴリでそれぞれ「gpt-4o-mini-tts」に対して75.7% と 55.7% の勝率を達成しています。また、Seed-TTS EvalやEmotional Speech Dataset (ESD)などの従来のTTSベンチマークでも最先端の性能を発揮しています。さらに、このモデルは、ナレーション中の自動韻律適応、複数言語でのゼロショット自然な多話者対話生成、クローンした声でのメロディー付きハミング、音声と背景音楽の同時生成など、これまでのシステムではめったに見られない機能を示しています。

以下は、このモデルのいくつかの新興機能を示すデモビデオです（ミュートを解除することを忘れないでください）。

以下は、モデルの多言語機能とライブ翻訳の機能を紹介する別のデモビデオです（ミュートを解除することを忘れないでください）。

🔧 技術詳細

Higgs Audio v2は、上記のアーキテクチャ図に示される「generation variant」を採用しています。その高い性能は、3つの主要な技術革新によって支えられています。

複数のASRモデル、音響イベント分類モデル、および独自の音声理解モデルを活用した自動アノテーションパイプラインを開発しました。このパイプラインを使用して、1000万時間の音声データをクリーニングし、アノテーションを付けました。これをAudioVerseと呼んでいます。独自の理解モデルは、アーキテクチャ図に示される「understanding variant」を採用したHiggs Audio v1 Understandingの上で微調整されています。
セマンティックと音響の両方の特徴を捉える統一的な音声トークナイザをゼロから学習しました。
最小限の計算オーバーヘッドでLLMの音響トークンをモデル化する能力を強化するDualFFNアーキテクチャを提案しました。

音声トークナイザ

我々は、毎秒25フレームで動作し、ビットレートが2倍のトークナイザと比較して音質を維持、さらには向上させる新しい離散化音声トークナイザを導入しています。我々のモデルは、音声、音楽、音響イベントを1つの統一システムでカバーする24 kHzデータで学習する最初のモデルです。また、高速なバッチ推論のためにシンプルな非拡散エンコーダ/デコーダを使用しています。セマンティックと音響の評価で最先端の性能を達成しています。トークナイザの詳細については、https://huggingface.co/bosonai/higgs-audio-v2-tokenizer をご確認ください。

モデルアーキテクチャ -- Dual FFN

Higgs Audio v2は、Llama-3.2-3Bをベースに構築されています。モデルの音声トークン処理能力を強化するために、「DualFFN」アーキテクチャを音声アダプタとして組み込んでいます。DualFFNは音声専用のエキスパートとして機能し、最小限の計算オーバーヘッドでLLMの性能を向上させます。我々の実装では、22億のパラメータを持つDualFFNを組み込んでも、元のLLMの学習速度の91%を維持しています。したがって、Higgs Audio v2の総パラメータ数は36億（LLM）+ 22億（Audio Dual FFN）で、Llama-3.2-3Bと同じ学習/推論FLOPsを持っています。アブレーション研究によると、DualFFNを搭載したモデルは、単語誤り率（WER）と話者類似度の点で一貫して対照モデルを上回っています。詳細については、アーキテクチャブログをご確認ください。

📚 評価

以下は、Higgs Audio v2の4つのベンチマーク、Seed-TTS Eval、Emotional Speech Dataset (ESD)、EmergentTTS-Eval、およびMulti-speaker Evalでの性能です。

Seed-TTS Eval & ESD

我々は、参照テキスト、参照音声、およびターゲットテキストを用いてHiggs Audio v2にゼロショットTTSを実行させます。Seed-TTS EvalとESDの標準評価指標を使用しています。

	SeedTTS-Eval		ESD
	WER ↓	SIM ↑	WER ↓	SIM (emo2vec) ↑
Cosyvoice2	2.28	65.49	2.71	80.48
Qwen2.5-omni†	2.33	64.10	-	-
ElevenLabs Multilingual V2	1.43	50.00	1.66	65.87
Higgs Audio v1	2.18	66.27	1.49	82.84
Higgs Audio v2 (base)	2.44	67.70	1.78	86.13

EmergentTTS-Eval（「Emotions」と「Questions」）

EmergentTTS-Eval Paperに従い、「alloy」ボイスの「gpt-4o-mini-tts」に対する勝率を報告しています。Higgs Audio v2の結果は「belinda」のボイスで取得されています。判定モデルはGemini 2.5 Proです。

Model	Emotions (%) ↑	Questions (%) ↑
Higgs Audio v2 (base)	75.71%	55.71%
gpt-4o-audio-preview†	61.64%	47.85%
Hume.AI	61.60%	43.21%
BASELINE: gpt-4o-mini-tts	50.00%	50.00%
Qwen 2.5 Omni†	41.60%	51.78%
minimax/speech-02-hd	40.86%	47.32%
ElevenLabs Multilingual v2	30.35%	39.46%
DeepGram Aura-2	29.28%	48.21%
Sesame csm-1B	15.96%	31.78%

^{_{'†' は論文に記載されている強力なプロンプト手法を使用していることを意味します。}}

多話者評価

我々はまた、Higgs Audio v2の多話者対話生成能力を評価するための多話者評価ベンチマークを設計しました。このベンチマークは3つのサブセットで構成されています。

two-speaker-conversation：2人の話者が関与する1000の合成対話。2つの参照音声クリップを固定して、ランダムに選択された2人の人物間の4から10の対話の発話に対するモデルの二重声クローン能力を評価します。
small talk (no ref)：上記と同じ方法で作成された250の合成対話ですが、短い発話と限られたターン数（4 - 6）が特徴です。この場合は参照音声を固定せず、このセットは話者に適切な声を自動的に割り当てるモデルの能力を評価するために設計されています。
small talk (ref)：上記と同様の250の合成対話ですが、このセットは参照クリップをコンテキストに含めることを意図しているため、さらに短い発話が含まれています。two-speaker-conversation と同様です。

我々は、これらの3つのサブセットにおける単語誤り率（WER）と、話者内類似度と話者間非類似度の幾何平均を報告しています。Higgs Audio v2以外にも、MoonCast と nari-labs/Dia-1.6B-0626、多話者対話生成が可能な最も人気のあるオープンソースモデルの2つを評価しました。結果は以下の表にまとめられています。nari-labs/Dia-1.6B-0626 は、発話の長さと出力音声に対する厳しい制限のため、「two-speaker-conversation」サブセットでの実行ができませんでした。

	two-speaker-conversation		small talk		small talk (no ref)
	WER ↓	Mean Sim & Dis-sim ↑	WER ↓	Mean Sim & Dis-sim ↑	WER ↓	Mean Sim & Dis-sim ↑
MoonCast	38.77	46.02	8.33	63.68	24.65	53.94
nari-labs/Dia-1.6B-0626	-	-	17.62	63.15	19.46	61.14
Higgs Audio v2 (base)	18.88	51.95	11.89	67.92	14.65	55.28

🚀 クイックスタート

まず、higgs-audioをインストールする必要があります。

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

その後、以下のPythonコードスニペットを実行して、テキストを音声に変換してみてください。

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
    "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

さらに多くのサンプルスクリプトについては、https://github.com/boson-ai/higgs-audio/tree/main/examples をご確認ください。

📄 ライセンス

詳細は LICENSE を参照してください。