音频生成

2025年最佳的 57 个音频生成工具

Musicgen Medium

MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型，采用15亿参数的自回归Transformer架构。

EnCodec是由Meta AI开发的高保真实时神经音频编解码器，采用端到端训练方式，支持多种带宽设置。

Meta AI开发的高保真实时神经音频编解码器，专为MusicGen项目训练

Bigvgan V2 44khz 128band 512x

BigVGAN是一种基于大规模训练的通用神经声码器，能够高质量地生成音频波形。

MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本到音乐模型。

Stable Audio Open 1.0

Stable Audio Open 1.0 是一个文本到音频生成模型，能够根据文本提示生成最长47秒的44.1kHz立体声音频。

音频生成英语

Bigvgan V2 24khz 100band 256x

BigVGAN是一种高性能神经声码器，通过大规模训练实现高质量的音频合成，支持多种采样率和频带配置。

EnCodec是由Meta AI开发的实时高保真神经音频编解码器，支持多种带宽配置和流式处理。

Musicgen Songstarter V0.2

基于musicgen-stereo-melody-large微调的文本转音频模型，专为音乐制作人设计，可生成32kHz立体声音频的歌曲创意

音频生成英语

Musicgen Stereo Small

基于文本描述生成高质量立体声音乐样本的AI模型，支持300M参数规模

MusicGen Small 是一个基于 Transformer 架构的音乐生成模型，能够根据文本描述生成高质量的音乐片段。

MusicGen是一款文本到音乐的生成模型，能够根据文本描述或音频提示生成高质量的音乐样本。

Musicgen Melody

MusicGen是一个简单可控的音乐生成模型，能够根据文本描述或旋律输入生成高质量音乐。

Musicgen Melody Large

MusicGen是一款由Meta AI开发的文本生成音乐模型，能够根据文本描述或音频提示生成高质量音乐样本。

ACE-Step-v1-3.5B是一个文本转音频模型，支持高质量音频生成，适用于音乐和声音效果创作。

Stable Audio Open Small

基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型

音频生成英语

Stable Codec Speech 16k

基于Transformer架构的高质量低比特率语音编解码模型，专为语音数据压缩和生成建模设计

Safetensors 英语

Magnet Small 10secs

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。

ACE Step V1 Chinese Rap LoRA

一个混合说唱声线模型，专注于提升中文说唱/嘻哈音乐的生成质量

音频生成支持多种语言

在单块GPU上24小时内训练出的高质量语音语言模型，基于Qwen2.5-0.5B微调，使用Hubert标记作为词汇表

Inspiremusic 1.5B Long

InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一工具包，支持高音质和长篇幅音乐生成。

音频生成英语

TangoFlux是一个高效的文本转音频生成系统，结合流匹配与CLAP偏好优化技术，能够快速生成高质量音频。

Audio Magnet Medium

MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型，能够根据文本描述生成高质量音频样本。

Magnet Medium 30secs

MAGNeT是一个能够根据文本描述生成高质量音频样本的文本到音乐和文本到声音模型。

Musicgen Stereo Large

MusicGen是一款由Meta AI开发的文本生成音乐模型，支持立体声生成，能够根据文本描述或音频提示生成高质量音乐样本。

Magnet Medium 10secs

MAGNeT是一个文本转音乐和文本转声音的模型，能够根据文本描述生成高质量的音频样本。

Yue S2 1B General Exl2 8.0bpw

YuE是一个开创性的开源基础模型系列，专为音乐生成设计，特别是将歌词转化为完整歌曲（lyrics2song）。

Musicgen Stereo Medium

Meta AI发布的立体声音乐生成模型，支持通过文本描述生成高质量音乐

Magnet Small 30secs

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。

Sentis MusicGen

基于Unity Sentis验证的Meta MusicGen模型，可根据文本提示生成最长30秒的风格化音乐。

Audio Magnet Small

MAGNeT 是一款文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它是一个基于掩码生成非自回归Transformer的模型，使用32kHz EnCodec分词器。

Perceiver Ar Sam Giant Midi

基于Perceiver AR架构的符号音频模型，在GiantMIDI-Piano数据集上预训练，用于符号音频生成

Tango 2是基于Tango改进的文本生成音频模型，通过DPO对齐训练优化音频生成质量

Transformers 英语

Yue S1 7B Anneal Jp Kr Icl

YuE是一系列开源基础模型，专为音乐生成设计，特别是将歌词转化为完整歌曲（lyrics2song）。

TANGO是基于指令引导扩散的文本转音频模型，能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。

Transformers 英语

这是一个基于离散Hubert标记的语音语言模型，专注于高效训练，能够生成语音片段的延续。

QAMDT是一种面向文本生成音乐的质量感知扩散模型，通过创新训练技术提升音频保真度和音乐表现力。

TunesFormer是一种基于Transformer的双解码器模型，专为生成符合用户定义音乐形式的旋律而设计，特别适用于爱尔兰传统音乐。

基于生成式AI的MIDI音乐创作模型，支持从零生成或基于模板续写乐曲

Musicgen Stereo Melody

MusicGen是一款由Meta AI开发的文本生成音乐模型，能够根据文本描述或音频提示生成高质量立体声音乐样本。

Music Large 800k

这是一个拥有7.8亿参数的大型Transformer模型，专门用于音乐生成和转录任务，采用前瞻性训练方法。

Tango 2是基于Tango改进的文本转音频生成模型，通过直接偏好优化(DPO)技术实现音频生成的对齐训练

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase