Stable Audio Open 1.0开源音频生成模型 - 依文本提示制47秒立体声音频

首页

Stable Audio Open 1.0

由 stabilityai 开发

Stable Audio Open 1.0 是一个文本到音频生成模型，能够根据文本提示生成最长47秒的44.1kHz立体声音频。

音频生成英语开源协议:其他 #47秒音频生成 #44.1kHz高保真 #文本条件控制

下载量 36.03k

发布时间 : 5/24/2024

模型简介

该模型能够将文本描述转换为高质量的音频片段，适用于创意音频生成和研究用途。

模型特点

高质量音频生成

能够生成44.1kHz的立体声音频，最长可达47秒。

文本条件控制

使用T5文本嵌入模块实现精确的文本到音频转换。

扩散模型技术

采用基于Transformer的扩散模型（DiT）在潜在空间进行音频生成。

模型能力

文本到音频生成

立体声音频合成

条件音频生成

使用案例

创意音频制作

音乐片段生成

根据文本描述生成特定风格的音乐片段。

生成44.1kHz立体声音频

音效设计

生成特定音效，如锤子敲击木质表面的声音。

高质量音效生成

研究应用

音频生成算法研究

用于研究文本到音频生成算法和模型。

🚀 稳定音频开源模型 1.0

Stable Audio Open 1.0 能够根据文本提示生成长达 47 秒的 44.1kHz 立体声音频。该模型由自编码器、基于 T5 的文本嵌入和基于变压器的扩散模型三部分组成，可助力 AI 音乐与音频生成的研究与实验。

⚠️ 重要提示

如需商业使用，请参考 https://stability.ai/license。

💡 使用建议

点击“同意”即表示您同意许可协议，并认可 Stability AI 的隐私政策。

🚀 快速开始

Stable Audio Open 1.0 可与以下库结合使用：

stable-audio-tools 库
diffusers 库

✨ 主要特性

Stable Audio Open 1.0 由三个关键部分构成：

自编码器：可将波形压缩为易于处理的序列长度。
基于 T5 的文本嵌入：用于文本条件处理。
基于变压器的扩散（DiT）模型：在自编码器的潜在空间中运行。

📦 安装指南

使用此模型前，请确保将 diffusers 库升级到最新版本：

pip install -U diffusers

💻 使用示例

基础用法

以下是使用 stable-audio-tools 库进行推理的示例代码：

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# Download model
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-1.0")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# Set up text and timing conditioning
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_start": 0, 
    "seconds_total": 30
}]

# Generate stereo audio
output = generate_diffusion_cond(
    model,
    steps=100,
    cfg_scale=7,
    conditioning=conditioning,
    sample_size=sample_size,
    sigma_min=0.3,
    sigma_max=500,
    sampler_type="dpmpp-3m-sde",
    device=device
)

# Rearrange audio batch to a single sequence
output = rearrange(output, "b d n -> d (b n)")

# Peak normalize, clip, convert to int16, and save to file
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

高级用法

使用 diffusers 库的示例代码：

import torch
import soundfile as sf
from diffusers import StableAudioPipeline

pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# define the prompts
prompt = "The sound of a hammer hitting a wooden surface."
negative_prompt = "Low quality."

# set the seed for generator
generator = torch.Generator("cuda").manual_seed(0)

# run the generation
audio = pipe(
    prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=200,
    audio_end_in_s=10.0,
    num_waveforms_per_prompt=3,
    generator=generator,
).audios

output = audio[0].T.float().cpu().numpy()
sf.write("hammer.wav", output, pipe.vae.sampling_rate)

更多优化和使用细节请参考文档。

📚 详细文档

模型详情

属性	详情
模型类型	`Stable Audio Open 1.0` 是基于变压器架构的潜在扩散模型。
语言	英语
许可证	Stability AI 社区许可证
商业许可证	如需商业使用此模型，请参考 https://stability.ai/license
研究论文	https://arxiv.org/abs/2407.14358

训练数据集

所用数据集

我们的数据集包含 486492 条音频记录，其中 472618 条来自 Freesound，13874 条来自自由音乐档案（FMA）。所有音频文件均遵循 CC0、CC BY 或 CC Sampling+ 许可协议。这些数据用于训练我们的自编码器和 DiT 模型。我们使用公开可用的预训练 T5 模型（t5-base）进行文本条件处理。

归属信息

用于训练 Stable Audio Open 1.0 的所有音频记录的归属信息可在我们的归属页面上找到。

风险缓解

在开始训练之前，我们进行了深入分析，以确保训练数据中不存在未经授权的受版权保护的音乐。

Freesound 数据集：我们首先使用基于 AudioSet 类的 PANNs 音乐分类器识别 Freesound 中的音乐样本。识别出的音乐样本至少有 30 秒的音乐，且被预测属于与音乐相关的类别，阈值为 0.15（PANNs 输出概率范围为 0 到 1）。该阈值是通过对 FMA 中已知音乐示例进行分类并确保不存在假阴性来确定的。然后，我们将识别出的音乐样本发送给 Audible Magic 的识别服务（一家值得信赖的内容检测公司），以确保不存在受版权保护的音乐。Audible Magic 标记了疑似受版权保护的音乐，我们在对数据集进行训练之前将其移除。大部分移除的内容是背景中播放受版权保护音乐的现场录音。经过此过程后，我们剩下 266324 条 CC0、194840 条 CC-BY 和 11454 条 CC Sampling+ 音频记录。
FMA 子集：由于 FMA 子集由音乐信号组成，我们的处理过程略有不同。我们对一个大型受版权保护音乐数据库（https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset）进行元数据搜索，并标记任何潜在匹配项。标记的内容由人工进行单独审核。经过此过程后，我们最终得到 8967 条 CC-BY 和 4907 条 CC0 曲目。