S

Stable Audio Open Small

Developed by stabilityai
基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型
Downloads 1,171
Release Time : 5/12/2025

Model Overview

該模型能夠根據文本描述生成高質量短音頻片段,包含自編碼器、文本嵌入模塊和基於Transformer的擴散模型三個核心組件

Model Features

高質量音頻生成
可生成44.1kHz CD音質的立體聲音頻片段
文本條件控制
通過T5文本嵌入實現文本到音頻的精確控制
快速推理
支持8步採樣實現高效生成
版權合規
訓練數據經過嚴格版權篩查,僅使用CC許可內容

Model Capabilities

文本引導音頻生成
音樂片段生成
音效生成
短音頻循環生成

Use Cases

創意製作
背景音樂生成
為視頻項目快速生成定製背景音樂
11秒內的音樂循環片段
音效設計
根據文本描述生成特定音效
高質量音效片段
研究實驗
生成模型研究
探索音頻生成模型的侷限性與可能性
推動音頻AI領域發展
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase