Higgs Audio V2 Generation 3B Base
H

Higgs Audio V2 Generation 3B Base

由bosonai開發
Higgs Audio V2是一個強大的音頻基礎模型,在超過1000萬小時的音頻數據和多樣化的文本數據上進行了預訓練,能夠生成表現力豐富的音頻。
下載量 515
發布時間 : 7/1/2025

模型概述

Higgs Audio V2是一個音頻生成模型,專注於表現力豐富的音頻生成,支持多語言和多種音頻任務。

模型特點

表現力豐富的音頻生成
模型在表現力豐富的音頻生成方面表現出色,能夠自動適應韻律和情感。
多語言支持
能夠進行零樣本生成多種語言的自然多說話人對話。
先進的性能
在多個基準測試中取得了優異的成績,超過了多個知名模型。
獨特的能力
具備自動適應韻律、零樣本生成旋律哼唱、同時生成語音和背景音樂等能力。

模型能力

文本到語音轉換
多語言對話生成
旋律哼唱生成
語音和背景音樂同時生成
情感語音生成

使用案例

語音生成
情感語音生成
生成具有豐富情感的語音
在EmergentTTS-Eval的“情感”類別上以75.7%的勝率超過gpt-4o-mini-tts
多語言對話生成
生成自然的多說話人對話
在多說話人評估基準中表現優異
音樂生成
旋律哼唱生成
用克隆語音進行零樣本生成旋律哼唱
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase