🚀 稳定音频开放小模型
Stable Audio Open Small
是一个文本到音频的模型,能够根据文本提示生成长达 11 秒的立体声音频,为音频生成研究和创作提供了有力支持。
🚀 快速开始
请注意:如需商业使用,请参考 https://stability.ai/license
✨ 主要特性
Stable Audio Open Small
可根据文本提示生成可变长度(最长 11 秒)、采样率为 44.1kHz 的立体声音频。
- 模型由三部分组成:将波形压缩为可管理序列长度的自动编码器、基于 T5 的文本嵌入用于文本条件处理,以及在自动编码器潜在空间中运行的基于变压器的扩散(DiT)模型。
📦 安装指南
此模型可与 stable-audio-tools
库一起使用。
💻 使用示例
基础用法
import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
device = "cuda" if torch.cuda.is_available() else "cpu"
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]
model = model.to(device)
conditioning = [{
"prompt": "128 BPM tech house drum loop",
"seconds_total": 11
}]
output = generate_diffusion_cond(
model,
steps=8,
conditioning=conditioning,
sample_size=sample_size,
sampler_type="pingpong",
device=device
)
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)
📚 详细文档
模型详情
Arm CPU 优化
要进一步优化此模型以在 Arm CPU 上实现最佳性能,您可以按照 Arm 学习路径 的分步指南进行部署。
训练数据集
所用数据集
我们的数据集包含 486492 条音频记录,其中 472618 条来自 Freesound,13874 条来自自由音乐档案(FMA)。所有音频文件均遵循 CC0、CC BY 或 CC Sampling+ 许可。Freesound 和自由音乐档案数据集均用于训练自动编码器。DiT 仅在 Freesound 数据集上进行训练。我们使用公开可用的预训练 T5 模型(t5-base)进行文本条件处理。
归属说明
用于训练 Stable Audio Open Small
的所有音频记录的归属信息可在我们的 归属页面 上找到。
风险缓解
在开始训练之前,我们进行了深入分析,以确保训练数据中不存在未经授权的受版权保护的音乐。
为此,我们首先使用基于 AudioSet 类的 PANNs 音乐分类器识别 Freesound 中的音乐样本。识别出的音乐样本至少有 30 秒的音乐,且被预测属于与音乐相关的类别,阈值为 0.15(PANNs 输出概率范围为 0 到 1)。该阈值是通过对 FMA 中已知音乐示例进行分类并确保不存在假阴性来确定的。
识别出的音乐样本被发送到 Audible Magic 的识别服务(一家值得信赖的内容检测公司),以确保不存在受版权保护的音乐。Audible Magic 标记了疑似受版权保护的音乐,我们在对数据集进行训练之前将其移除。大部分移除的内容是背景中播放着受版权保护音乐的现场录音。经过此过程,我们剩下 266324 条 CC0、194840 条 CC-BY 和 11454 条 CC Sampling+ 音频记录。
我们还进行了深入分析,以确保 FMA 子集中不存在受版权保护的内容。在这种情况下,过程略有不同,因为 FMA 子集由音乐信号组成。我们针对一个大型受版权保护音乐数据库(https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset)进行了元数据搜索,并标记了任何潜在匹配项。标记的内容由人工单独审核。经过此过程,我们最终得到 8967 条 CC-BY 和 4907 条 CC0 曲目。
使用与限制
预期用途
Stable Audio Open Small
的主要用途是基于人工智能的音乐和音频生成的研究和实验,包括:
- 研究工作,以更好地理解生成模型的局限性并进一步推动科学发展。
- 机器学习从业者和艺术家通过文本引导生成音乐和音频,探索生成式人工智能模型的当前能力。
非预期用途
在没有进一步风险评估和缓解措施的情况下,不应将该模型用于下游应用。不应使用该模型故意创建或传播会给人们造成敌对或疏离环境的音频或音乐作品。
局限性
- 该模型无法生成逼真的人声。
- 该模型使用英文描述进行训练,在其他语言中的表现不佳。
- 该模型在所有音乐风格和文化中的表现并不一致。
- 该模型在生成音效和现场录音方面比生成音乐更出色。
- 有时难以评估哪种类型的文本描述能产生最佳生成效果。可能需要进行提示工程以获得满意的结果。
偏差
数据来源可能缺乏多样性,数据集中并非所有文化都得到了平等代表。该模型在各种音乐流派和音效上的表现可能不一致。模型生成的样本将反映训练数据中的偏差。
📄 许可证
本模型遵循 Stability AI 社区许可证。点击“同意”即表示您同意 许可协议,并认可 Stability AI 的 隐私政策。