Musicgen Medium
MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本轉音樂模型,採用15億參數的自迴歸Transformer架構。
音頻生成
Transformers

M
facebook
1.5M
118
Encodec 24khz
EnCodec是由Meta AI開發的高保真即時神經音頻編解碼器,採用端到端訓練方式,支持多種帶寬設置。
音頻生成
Transformers

E
facebook
534.08k
46
Encodec 32khz
Meta AI開發的高保真即時神經音頻編解碼器,專為MusicGen項目訓練
音頻生成
Transformers

E
facebook
348.00k
19
Bigvgan V2 44khz 128band 512x
MIT
BigVGAN是一種基於大規模訓練的通用神經聲碼器,能夠高質量地生成音頻波形。
音頻生成
B
nvidia
223.13k
41
Musicgen Small
MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本到音樂模型。
音頻生成
Transformers

M
facebook
123.91k
429
Stable Audio Open 1.0
其他
Stable Audio Open 1.0 是一個文本到音頻生成模型,能夠根據文本提示生成最長47秒的44.1kHz立體聲音頻。
音頻生成 英語
S
stabilityai
36.03k
1,170
Bigvgan V2 24khz 100band 256x
MIT
BigVGAN是一種高性能神經聲碼器,通過大規模訓練實現高質量的音頻合成,支持多種採樣率和頻帶配置。
音頻生成
B
nvidia
34.03k
14
Encodec 48khz
MIT
EnCodec是由Meta AI開發的即時高保真神經音頻編解碼器,支持多種帶寬配置和流式處理。
音頻生成
Transformers

E
facebook
23.25k
32
Musicgen Songstarter V0.2
基於musicgen-stereo-melody-large微調的文本轉音頻模型,專為音樂製作人設計,可生成32kHz立體聲音頻的歌曲創意
音頻生成 英語
M
nateraw
22.11k
157
Musicgen Stereo Small
基於文本描述生成高質量立體聲音樂樣本的AI模型,支持300M參數規模
音頻生成
Transformers

M
facebook
7,091
29
Musicgen Small
MusicGen Small 是一個基於 Transformer 架構的音樂生成模型,能夠根據文本描述生成高質量的音樂片段。
音頻生成
Transformers

M
Xenova
5,434
24
Musicgen Large
MusicGen是一款文本到音樂的生成模型,能夠根據文本描述或音頻提示生成高質量的音樂樣本。
音頻生成
Transformers

M
facebook
5,125
448
Musicgen Melody
MusicGen是一個簡單可控的音樂生成模型,能夠根據文本描述或旋律輸入生成高質量音樂。
音頻生成
Transformers

M
facebook
3,632
216
Musicgen Melody Large
MusicGen是一款由Meta AI開發的文本生成音樂模型,能夠根據文本描述或音頻提示生成高質量音樂樣本。
音頻生成
Transformers

M
facebook
1,414
29
Ace Gguf
Apache-2.0
ACE-Step-v1-3.5B是一個文本轉音頻模型,支持高質量音頻生成,適用於音樂和聲音效果創作。
音頻生成
A
calcuis
1,332
12
Stable Audio Open Small
其他
基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型
音頻生成 英語
S
stabilityai
1,171
141
Stable Codec Speech 16k
其他
基於Transformer架構的高質量低比特率語音編解碼模型,專為語音數據壓縮和生成建模設計
音頻生成
Safetensors 英語
S
stabilityai
1,072
17
Magnet Small 10secs
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
音頻生成
M
facebook
976
22
ACE Step V1 Chinese Rap LoRA
Apache-2.0
一個混合說唱聲線模型,專注於提升中文說唱/嘻哈音樂的生成質量
音頻生成 支持多種語言
A
ACE-Step
896
15
Slam Scaled
MIT
在單塊GPU上24小時內訓練出的高質量語音語言模型,基於Qwen2.5-0.5B微調,使用Hubert標記作為詞彙表
音頻生成
Transformers

S
slprl
792
6
Inspiremusic 1.5B Long
Apache-2.0
InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一工具包,支持高音質和長篇幅音樂生成。
音頻生成 英語
I
FunAudioLLM
760
28
Tangoflux
TangoFlux是一個高效的文本轉音頻生成系統,結合流匹配與CLAP偏好優化技術,能夠快速生成高質量音頻。
音頻生成
T
declare-lab
727
94
Audio Magnet Medium
MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型,能夠根據文本描述生成高質量音頻樣本。
音頻生成
A
facebook
435
34
Magnet Medium 30secs
MAGNeT是一個能夠根據文本描述生成高質量音頻樣本的文本到音樂和文本到聲音模型。
音頻生成
M
facebook
409
36
Musicgen Stereo Large
MusicGen是一款由Meta AI開發的文本生成音樂模型,支持立體聲生成,能夠根據文本描述或音頻提示生成高質量音樂樣本。
音頻生成
Transformers

M
facebook
382
74
Magnet Medium 10secs
MAGNeT是一個文本轉音樂和文本轉聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
音頻生成
M
facebook
322
8
Yue S2 1B General Exl2 8.0bpw
Apache-2.0
YuE是一個開創性的開源基礎模型系列,專為音樂生成設計,特別是將歌詞轉化為完整歌曲(lyrics2song)。
音頻生成
Y
Alissonerdx
310
1
Musicgen Stereo Medium
Meta AI發佈的立體聲音樂生成模型,支持通過文本描述生成高質量音樂
音頻生成
Transformers

M
facebook
303
30
Magnet Small 30secs
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
音頻生成
M
facebook
215
8
Sentis MusicGen
MIT
基於Unity Sentis驗證的Meta MusicGen模型,可根據文本提示生成最長30秒的風格化音樂。
音頻生成
S
unity
174
17
Audio Magnet Small
MAGNeT 是一款文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它是一個基於掩碼生成非自迴歸Transformer的模型,使用32kHz EnCodec分詞器。
音頻生成
A
facebook
161
9
Perceiver Ar Sam Giant Midi
Apache-2.0
基於Perceiver AR架構的符號音頻模型,在GiantMIDI-Piano數據集上預訓練,用於符號音頻生成
音頻生成
Transformers

P
krasserm
153
11
Tango2
Tango 2是基於Tango改進的文本生成音頻模型,通過DPO對齊訓練優化音頻生成質量
音頻生成
Transformers 英語

T
declare-lab
147
17
Yue S1 7B Anneal Jp Kr Icl
Apache-2.0
YuE是一系列開源基礎模型,專為音樂生成設計,特別是將歌詞轉化為完整歌曲(lyrics2song)。
音頻生成
Safetensors
Y
m-a-p
136
11
Tango
TANGO是基於指令引導擴散的文本轉音頻模型,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
音頻生成
Transformers 英語

T
declare-lab
118
41
Slam
MIT
這是一個基於離散Hubert標記的語音語言模型,專注於高效訓練,能夠生成語音片段的延續。
音頻生成
Transformers

S
slprl
115
10
Openmusic
QAMDT是一種面向文本生成音樂的質量感知擴散模型,通過創新訓練技術提升音頻保真度和音樂表現力。
音頻生成
O
jadechoghari
108
63
Tunesformer
MIT
TunesFormer是一種基於Transformer的雙解碼器模型,專為生成符合用戶定義音樂形式的旋律而設計,特別適用於愛爾蘭傳統音樂。
音頻生成
Transformers

T
sander-wood
90
6
Musiclang 4k
Gpl-3.0
基於生成式AI的MIDI音樂創作模型,支持從零生成或基於模板續寫樂曲
音頻生成
Transformers

M
musiclang
83
17
Musicgen Stereo Melody
MusicGen是一款由Meta AI開發的文本生成音樂模型,能夠根據文本描述或音頻提示生成高質量立體聲音樂樣本。
音頻生成
Transformers

M
facebook
82
10
Music Large 800k
Apache-2.0
這是一個擁有7.8億參數的大型Transformer模型,專門用於音樂生成和轉錄任務,採用前瞻性訓練方法。
音頻生成
Transformers

M
stanford-crfm
73
27
Tango2 Full
Tango 2是基於Tango改進的文本轉音頻生成模型,通過直接偏好優化(DPO)技術實現音頻生成的對齊訓練
音頻生成
Transformers 英語

T
declare-lab
63
9
- 1
- 2