Musicgen Medium
MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型,采用15亿参数的自回归Transformer架构。
音频生成
Transformers

M
facebook
1.5M
118
Encodec 24khz
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
音频生成
Transformers

E
facebook
534.08k
46
Encodec 32khz
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
音频生成
Transformers

E
facebook
348.00k
19
Bigvgan V2 44khz 128band 512x
MIT
BigVGAN是一种基于大规模训练的通用神经声码器,能够高质量地生成音频波形。
音频生成
B
nvidia
223.13k
41
Musicgen Small
MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本到音乐模型。
音频生成
Transformers

M
facebook
123.91k
429
Stable Audio Open 1.0
其他
Stable Audio Open 1.0 是一个文本到音频生成模型,能够根据文本提示生成最长47秒的44.1kHz立体声音频。
音频生成 英语
S
stabilityai
36.03k
1,170
Bigvgan V2 24khz 100band 256x
MIT
BigVGAN是一种高性能神经声码器,通过大规模训练实现高质量的音频合成,支持多种采样率和频带配置。
音频生成
B
nvidia
34.03k
14
Encodec 48khz
MIT
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
音频生成
Transformers

E
facebook
23.25k
32
Musicgen Songstarter V0.2
基于musicgen-stereo-melody-large微调的文本转音频模型,专为音乐制作人设计,可生成32kHz立体声音频的歌曲创意
音频生成 英语
M
nateraw
22.11k
157
Musicgen Stereo Small
基于文本描述生成高质量立体声音乐样本的AI模型,支持300M参数规模
音频生成
Transformers

M
facebook
7,091
29
Musicgen Small
MusicGen Small 是一个基于 Transformer 架构的音乐生成模型,能够根据文本描述生成高质量的音乐片段。
音频生成
Transformers

M
Xenova
5,434
24
Musicgen Large
MusicGen是一款文本到音乐的生成模型,能够根据文本描述或音频提示生成高质量的音乐样本。
音频生成
Transformers

M
facebook
5,125
448
Musicgen Melody
MusicGen是一个简单可控的音乐生成模型,能够根据文本描述或旋律输入生成高质量音乐。
音频生成
Transformers

M
facebook
3,632
216
Musicgen Melody Large
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。
音频生成
Transformers

M
facebook
1,414
29
Ace Gguf
Apache-2.0
ACE-Step-v1-3.5B是一个文本转音频模型,支持高质量音频生成,适用于音乐和声音效果创作。
音频生成
A
calcuis
1,332
12
Stable Audio Open Small
其他
基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型
音频生成 英语
S
stabilityai
1,171
141
Stable Codec Speech 16k
其他
基于Transformer架构的高质量低比特率语音编解码模型,专为语音数据压缩和生成建模设计
音频生成
Safetensors 英语
S
stabilityai
1,072
17
Magnet Small 10secs
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。
音频生成
M
facebook
976
22
ACE Step V1 Chinese Rap LoRA
Apache-2.0
一个混合说唱声线模型,专注于提升中文说唱/嘻哈音乐的生成质量
音频生成 支持多种语言
A
ACE-Step
896
15
Slam Scaled
MIT
在单块GPU上24小时内训练出的高质量语音语言模型,基于Qwen2.5-0.5B微调,使用Hubert标记作为词汇表
音频生成
Transformers

S
slprl
792
6
Inspiremusic 1.5B Long
Apache-2.0
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一工具包,支持高音质和长篇幅音乐生成。
音频生成 英语
I
FunAudioLLM
760
28
Tangoflux
TangoFlux是一个高效的文本转音频生成系统,结合流匹配与CLAP偏好优化技术,能够快速生成高质量音频。
音频生成
T
declare-lab
727
94
Audio Magnet Medium
MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型,能够根据文本描述生成高质量音频样本。
音频生成
A
facebook
435
34
Magnet Medium 30secs
MAGNeT是一个能够根据文本描述生成高质量音频样本的文本到音乐和文本到声音模型。
音频生成
M
facebook
409
36
Musicgen Stereo Large
MusicGen是一款由Meta AI开发的文本生成音乐模型,支持立体声生成,能够根据文本描述或音频提示生成高质量音乐样本。
音频生成
Transformers

M
facebook
382
74
Magnet Medium 10secs
MAGNeT是一个文本转音乐和文本转声音的模型,能够根据文本描述生成高质量的音频样本。
音频生成
M
facebook
322
8
Yue S2 1B General Exl2 8.0bpw
Apache-2.0
YuE是一个开创性的开源基础模型系列,专为音乐生成设计,特别是将歌词转化为完整歌曲(lyrics2song)。
音频生成
Y
Alissonerdx
310
1
Musicgen Stereo Medium
Meta AI发布的立体声音乐生成模型,支持通过文本描述生成高质量音乐
音频生成
Transformers

M
facebook
303
30
Magnet Small 30secs
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。
音频生成
M
facebook
215
8
Sentis MusicGen
MIT
基于Unity Sentis验证的Meta MusicGen模型,可根据文本提示生成最长30秒的风格化音乐。
音频生成
S
unity
174
17
Audio Magnet Small
MAGNeT 是一款文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它是一个基于掩码生成非自回归Transformer的模型,使用32kHz EnCodec分词器。
音频生成
A
facebook
161
9
Perceiver Ar Sam Giant Midi
Apache-2.0
基于Perceiver AR架构的符号音频模型,在GiantMIDI-Piano数据集上预训练,用于符号音频生成
音频生成
Transformers

P
krasserm
153
11
Tango2
Tango 2是基于Tango改进的文本生成音频模型,通过DPO对齐训练优化音频生成质量
音频生成
Transformers 英语

T
declare-lab
147
17
Yue S1 7B Anneal Jp Kr Icl
Apache-2.0
YuE是一系列开源基础模型,专为音乐生成设计,特别是将歌词转化为完整歌曲(lyrics2song)。
音频生成
Safetensors
Y
m-a-p
136
11
Tango
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
音频生成
Transformers 英语

T
declare-lab
118
41
Slam
MIT
这是一个基于离散Hubert标记的语音语言模型,专注于高效训练,能够生成语音片段的延续。
音频生成
Transformers

S
slprl
115
10
Openmusic
QAMDT是一种面向文本生成音乐的质量感知扩散模型,通过创新训练技术提升音频保真度和音乐表现力。
音频生成
O
jadechoghari
108
63
Tunesformer
MIT
TunesFormer是一种基于Transformer的双解码器模型,专为生成符合用户定义音乐形式的旋律而设计,特别适用于爱尔兰传统音乐。
音频生成
Transformers

T
sander-wood
90
6
Musiclang 4k
Gpl-3.0
基于生成式AI的MIDI音乐创作模型,支持从零生成或基于模板续写乐曲
音频生成
Transformers

M
musiclang
83
17
Musicgen Stereo Melody
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量立体声音乐样本。
音频生成
Transformers

M
facebook
82
10
Music Large 800k
Apache-2.0
这是一个拥有7.8亿参数的大型Transformer模型,专门用于音乐生成和转录任务,采用前瞻性训练方法。
音频生成
Transformers

M
stanford-crfm
73
27
Tango2 Full
Tango 2是基于Tango改进的文本转音频生成模型,通过直接偏好优化(DPO)技术实现音频生成的对齐训练
音频生成
Transformers 英语

T
declare-lab
63
9
- 1
- 2