stable-audio-open-small開源音頻模型 - 按文本提示生成11秒立體聲音頻

首頁

Stable Audio Open Small

由stabilityai開發

基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型

音頻生成

Safetensors

英語開源協議:其他 #短音頻生成 #文本轉音頻 #44.1kHz高保真

下載量 1,171

發布時間 : 5/12/2025

模型概述

該模型能夠根據文本描述生成高質量短音頻片段，包含自編碼器、文本嵌入模塊和基於Transformer的擴散模型三個核心組件

模型特點

高質量音頻生成

可生成44.1kHz CD音質的立體聲音頻片段

文本條件控制

通過T5文本嵌入實現文本到音頻的精確控制

快速推理

支持8步採樣實現高效生成

版權合規

訓練數據經過嚴格版權篩查，僅使用CC許可內容

模型能力

文本引導音頻生成

音樂片段生成

音效生成

短音頻循環生成

使用案例

創意製作

背景音樂生成

為視頻項目快速生成定製背景音樂

11秒內的音樂循環片段

音效設計

根據文本描述生成特定音效

高質量音效片段

研究實驗

生成模型研究

探索音頻生成模型的侷限性與可能性

推動音頻AI領域發展

🚀 穩定音頻開放小模型

Stable Audio Open Small 是一個文本到音頻的模型，能夠根據文本提示生成長達 11 秒的立體聲音頻，為音頻生成研究和創作提供了有力支持。

🚀 快速開始

請注意：如需商業使用，請參考 https://stability.ai/license

✨ 主要特性

Stable Audio Open Small 可根據文本提示生成可變長度（最長 11 秒）、採樣率為 44.1kHz 的立體聲音頻。
模型由三部分組成：將波形壓縮為可管理序列長度的自動編碼器、基於 T5 的文本嵌入用於文本條件處理，以及在自動編碼器潛在空間中運行的基於變壓器的擴散（DiT）模型。

📦 安裝指南

此模型可與 stable-audio-tools 庫一起使用。

💻 使用示例

基礎用法

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# 下載模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# 設置文本和時間條件
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# 生成立體聲音頻
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# 將音頻批次重新排列為單個序列
output = rearrange(output, "b d n -> d (b n)")

# 峰值歸一化、裁剪、轉換為 int16 並保存到文件
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	`Stable Audio Open Small` 是一個基於變壓器架構的潛在擴散模型。
語言	英文
許可證	Stability AI 社區許可證
商業許可證	如需商業使用此模型，請參考 https://stability.ai/license
研究論文	https://arxiv.org/abs/2505.08175

Arm CPU 優化

要進一步優化此模型以在 Arm CPU 上實現最佳性能，您可以按照 Arm 學習路徑的分步指南進行部署。

訓練數據集

所用數據集

我們的數據集包含 486492 條音頻記錄，其中 472618 條來自 Freesound，13874 條來自自由音樂檔案（FMA）。所有音頻文件均遵循 CC0、CC BY 或 CC Sampling+ 許可。Freesound 和自由音樂檔案數據集均用於訓練自動編碼器。DiT 僅在 Freesound 數據集上進行訓練。我們使用公開可用的預訓練 T5 模型（t5-base）進行文本條件處理。

歸屬說明

用於訓練 Stable Audio Open Small 的所有音頻記錄的歸屬信息可在我們的歸屬頁面上找到。

風險緩解

在開始訓練之前，我們進行了深入分析，以確保訓練數據中不存在未經授權的受版權保護的音樂。

為此，我們首先使用基於 AudioSet 類的 PANNs 音樂分類器識別 Freesound 中的音樂樣本。識別出的音樂樣本至少有 30 秒的音樂，且被預測屬於與音樂相關的類別，閾值為 0.15（PANNs 輸出概率範圍為 0 到 1）。該閾值是通過對 FMA 中已知音樂示例進行分類並確保不存在假陰性來確定的。

識別出的音樂樣本被髮送到 Audible Magic 的識別服務（一家值得信賴的內容檢測公司），以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂，我們在對數據集進行訓練之前將其移除。大部分移除的內容是背景中播放著受版權保護音樂的現場錄音。經過此過程，我們剩下 266324 條 CC0、194840 條 CC-BY 和 11454 條 CC Sampling+ 音頻記錄。

我們還進行了深入分析，以確保 FMA 子集中不存在受版權保護的內容。在這種情況下，過程略有不同，因為 FMA 子集由音樂信號組成。我們針對一個大型受版權保護音樂數據庫（https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset）進行了元數據搜索，並標記了任何潛在匹配項。標記的內容由人工單獨審核。經過此過程，我們最終得到 8967 條 CC-BY 和 4907 條 CC0 曲目。