Higgs Audio V2 Generation 3B Base
H

Higgs Audio V2 Generation 3B Base

bosonaiによって開発
Higgs Audio V2は強力なオーディオ基礎モデルで、1000万時間を超えるオーディオデータと多様なテキストデータで事前学習され、表现力豊かなオーディオを生成できます。
ダウンロード数 515
リリース時間 : 7/1/2025

モデル概要

Higgs Audio V2はオーディオ生成モデルで、表现力豊かなオーディオ生成に特化し、多言語と様々なオーディオタスクをサポートします。

モデル特徴

表现力豊かなオーディオ生成
モデルは表现力豊かなオーディオ生成に優れており、韻律と感情に自動的に適応できます。
多言語対応
ゼロサンプルで複数の言語の自然な多話者対話を生成できます。
先進的な性能
複数のベンチマークテストで優れた成績を収め、複数の著名なモデルを上回っています。
独特な能力
韻律に自動的に適応、ゼロサンプルでメロディーの哼鳴を生成、音声とバックグラウンドミュージックを同時に生成するなどの能力を備えています。

モデル能力

テキストから音声への変換
多言語対話生成
メロディーの哼鳴生成
音声とバックグラウンドミュージックの同時生成
感情付き音声生成

使用事例

音声生成
感情付き音声生成
豊かな感情を持った音声を生成します
EmergentTTS - Evalの「感情」カテゴリで75.7%の勝率でgpt - 4o - mini - ttsを上回りました
多言語対話生成
自然な多話者対話を生成します
多話者評価ベンチマークで優れた成績を収めました
音楽生成
メロディーの哼鳴生成
クローン音声でゼロサンプルでメロディーの哼鳴を生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase