S

Stable Audio Open Small

由stabilityai開發
基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型
下載量 1,171
發布時間 : 5/12/2025

模型概述

該模型能夠根據文本描述生成高質量短音頻片段,包含自編碼器、文本嵌入模塊和基於Transformer的擴散模型三個核心組件

模型特點

高質量音頻生成
可生成44.1kHz CD音質的立體聲音頻片段
文本條件控制
通過T5文本嵌入實現文本到音頻的精確控制
快速推理
支持8步採樣實現高效生成
版權合規
訓練數據經過嚴格版權篩查,僅使用CC許可內容

模型能力

文本引導音頻生成
音樂片段生成
音效生成
短音頻循環生成

使用案例

創意製作
背景音樂生成
為視頻項目快速生成定製背景音樂
11秒內的音樂循環片段
音效設計
根據文本描述生成特定音效
高質量音效片段
研究實驗
生成模型研究
探索音頻生成模型的侷限性與可能性
推動音頻AI領域發展
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase