🚀 穩定音頻開放小模型
Stable Audio Open Small
是一個文本到音頻的模型,能夠根據文本提示生成長達 11 秒的立體聲音頻,為音頻生成研究和創作提供了有力支持。
🚀 快速開始
請注意:如需商業使用,請參考 https://stability.ai/license
✨ 主要特性
Stable Audio Open Small
可根據文本提示生成可變長度(最長 11 秒)、採樣率為 44.1kHz 的立體聲音頻。
- 模型由三部分組成:將波形壓縮為可管理序列長度的自動編碼器、基於 T5 的文本嵌入用於文本條件處理,以及在自動編碼器潛在空間中運行的基於變壓器的擴散(DiT)模型。
📦 安裝指南
此模型可與 stable-audio-tools
庫一起使用。
💻 使用示例
基礎用法
import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
device = "cuda" if torch.cuda.is_available() else "cpu"
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]
model = model.to(device)
conditioning = [{
"prompt": "128 BPM tech house drum loop",
"seconds_total": 11
}]
output = generate_diffusion_cond(
model,
steps=8,
conditioning=conditioning,
sample_size=sample_size,
sampler_type="pingpong",
device=device
)
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)
📚 詳細文檔
模型詳情
Arm CPU 優化
要進一步優化此模型以在 Arm CPU 上實現最佳性能,您可以按照 Arm 學習路徑 的分步指南進行部署。
訓練數據集
所用數據集
我們的數據集包含 486492 條音頻記錄,其中 472618 條來自 Freesound,13874 條來自自由音樂檔案(FMA)。所有音頻文件均遵循 CC0、CC BY 或 CC Sampling+ 許可。Freesound 和自由音樂檔案數據集均用於訓練自動編碼器。DiT 僅在 Freesound 數據集上進行訓練。我們使用公開可用的預訓練 T5 模型(t5-base)進行文本條件處理。
歸屬說明
用於訓練 Stable Audio Open Small
的所有音頻記錄的歸屬信息可在我們的 歸屬頁面 上找到。
風險緩解
在開始訓練之前,我們進行了深入分析,以確保訓練數據中不存在未經授權的受版權保護的音樂。
為此,我們首先使用基於 AudioSet 類的 PANNs 音樂分類器識別 Freesound 中的音樂樣本。識別出的音樂樣本至少有 30 秒的音樂,且被預測屬於與音樂相關的類別,閾值為 0.15(PANNs 輸出概率範圍為 0 到 1)。該閾值是通過對 FMA 中已知音樂示例進行分類並確保不存在假陰性來確定的。
識別出的音樂樣本被髮送到 Audible Magic 的識別服務(一家值得信賴的內容檢測公司),以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂,我們在對數據集進行訓練之前將其移除。大部分移除的內容是背景中播放著受版權保護音樂的現場錄音。經過此過程,我們剩下 266324 條 CC0、194840 條 CC-BY 和 11454 條 CC Sampling+ 音頻記錄。
我們還進行了深入分析,以確保 FMA 子集中不存在受版權保護的內容。在這種情況下,過程略有不同,因為 FMA 子集由音樂信號組成。我們針對一個大型受版權保護音樂數據庫(https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset)進行了元數據搜索,並標記了任何潛在匹配項。標記的內容由人工單獨審核。經過此過程,我們最終得到 8967 條 CC-BY 和 4907 條 CC0 曲目。
使用與限制
預期用途
Stable Audio Open Small
的主要用途是基於人工智能的音樂和音頻生成的研究和實驗,包括:
- 研究工作,以更好地理解生成模型的侷限性並進一步推動科學發展。
- 機器學習從業者和藝術家通過文本引導生成音樂和音頻,探索生成式人工智能模型的當前能力。
非預期用途
在沒有進一步風險評估和緩解措施的情況下,不應將該模型用於下游應用。不應使用該模型故意創建或傳播會給人們造成敵對或疏離環境的音頻或音樂作品。
侷限性
- 該模型無法生成逼真的人聲。
- 該模型使用英文描述進行訓練,在其他語言中的表現不佳。
- 該模型在所有音樂風格和文化中的表現並不一致。
- 該模型在生成音效和現場錄音方面比生成音樂更出色。
- 有時難以評估哪種類型的文本描述能產生最佳生成效果。可能需要進行提示工程以獲得滿意的結果。
偏差
數據來源可能缺乏多樣性,數據集中並非所有文化都得到了平等代表。該模型在各種音樂流派和音效上的表現可能不一致。模型生成的樣本將反映訓練數據中的偏差。
📄 許可證
本模型遵循 Stability AI 社區許可證。點擊“同意”即表示您同意 許可協議,並認可 Stability AI 的 隱私政策。