stable-audio-open-small開源音頻模型 - 按文本提示生成11秒立體聲音頻

Home

Stable Audio Open Small

Developed by stabilityai

基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型

音頻生成

Safetensors

EnglishOpen Source License:Other #短音頻生成 #文本轉音頻 #44.1kHz高保真

Downloads 1,171

Release Time : 5/12/2025

Model Overview

該模型能夠根據文本描述生成高質量短音頻片段，包含自編碼器、文本嵌入模塊和基於Transformer的擴散模型三個核心組件

Model Features

高質量音頻生成

可生成44.1kHz CD音質的立體聲音頻片段

文本條件控制

通過T5文本嵌入實現文本到音頻的精確控制

快速推理

支持8步採樣實現高效生成

版權合規

訓練數據經過嚴格版權篩查，僅使用CC許可內容

Model Capabilities

文本引導音頻生成

音樂片段生成

音效生成

短音頻循環生成

Use Cases

創意製作

背景音樂生成

為視頻項目快速生成定製背景音樂

11秒內的音樂循環片段

音效設計

根據文本描述生成特定音效

高質量音效片段

研究實驗

生成模型研究

探索音頻生成模型的侷限性與可能性

推動音頻AI領域發展

🚀 穩定音頻開放小模型

Stable Audio Open Small 是一個文本到音頻的模型，能夠根據文本提示生成長達 11 秒的立體聲音頻，為音頻生成研究和創作提供了有力支持。

🚀 快速開始

請注意：如需商業使用，請參考 https://stability.ai/license

✨ 主要特性

Stable Audio Open Small 可根據文本提示生成可變長度（最長 11 秒）、採樣率為 44.1kHz 的立體聲音頻。
模型由三部分組成：將波形壓縮為可管理序列長度的自動編碼器、基於 T5 的文本嵌入用於文本條件處理，以及在自動編碼器潛在空間中運行的基於變壓器的擴散（DiT）模型。

📦 安裝指南

此模型可與 stable-audio-tools 庫一起使用。

💻 使用示例

基礎用法

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# 下載模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# 設置文本和時間條件
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# 生成立體聲音頻
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# 將音頻批次重新排列為單個序列
output = rearrange(output, "b d n -> d (b n)")

# 峰值歸一化、裁剪、轉換為 int16 並保存到文件
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	`Stable Audio Open Small` 是一個基於變壓器架構的潛在擴散模型。
語言	英文
許可證	Stability AI 社區許可證
商業許可證	如需商業使用此模型，請參考 https://stability.ai/license
研究論文	https://arxiv.org/abs/2505.08175

Arm CPU 優化

要進一步優化此模型以在 Arm CPU 上實現最佳性能，您可以按照 Arm 學習路徑的分步指南進行部署。

訓練數據集

所用數據集

我們的數據集包含 486492 條音頻記錄，其中 472618 條來自 Freesound，13874 條來自自由音樂檔案（FMA）。所有音頻文件均遵循 CC0、CC BY 或 CC Sampling+ 許可。Freesound 和自由音樂檔案數據集均用於訓練自動編碼器。DiT 僅在 Freesound 數據集上進行訓練。我們使用公開可用的預訓練 T5 模型（t5-base）進行文本條件處理。

歸屬說明

用於訓練 Stable Audio Open Small 的所有音頻記錄的歸屬信息可在我們的歸屬頁面上找到。

風險緩解

在開始訓練之前，我們進行了深入分析，以確保訓練數據中不存在未經授權的受版權保護的音樂。

為此，我們首先使用基於 AudioSet 類的 PANNs 音樂分類器識別 Freesound 中的音樂樣本。識別出的音樂樣本至少有 30 秒的音樂，且被預測屬於與音樂相關的類別，閾值為 0.15（PANNs 輸出概率範圍為 0 到 1）。該閾值是通過對 FMA 中已知音樂示例進行分類並確保不存在假陰性來確定的。

識別出的音樂樣本被髮送到 Audible Magic 的識別服務（一家值得信賴的內容檢測公司），以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂，我們在對數據集進行訓練之前將其移除。大部分移除的內容是背景中播放著受版權保護音樂的現場錄音。經過此過程，我們剩下 266324 條 CC0、194840 條 CC-BY 和 11454 條 CC Sampling+ 音頻記錄。

我們還進行了深入分析，以確保 FMA 子集中不存在受版權保護的內容。在這種情況下，過程略有不同，因為 FMA 子集由音樂信號組成。我們針對一個大型受版權保護音樂數據庫（https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset）進行了元數據搜索，並標記了任何潛在匹配項。標記的內容由人工單獨審核。經過此過程，我們最終得到 8967 條 CC-BY 和 4907 條 CC0 曲目。