S

Stable Audio Open 1.0

Developed by stabilityai
Stable Audio Open 1.0 是一個文本到音頻生成模型,能夠根據文本提示生成最長47秒的44.1kHz立體聲音頻。
Downloads 36.03k
Release Time : 5/24/2024

Model Overview

該模型能夠將文本描述轉換為高質量的音頻片段,適用於創意音頻生成和研究用途。

Model Features

高質量音頻生成
能夠生成44.1kHz的立體聲音頻,最長可達47秒。
文本條件控制
使用T5文本嵌入模塊實現精確的文本到音頻轉換。
擴散模型技術
採用基於Transformer的擴散模型(DiT)在潛在空間進行音頻生成。

Model Capabilities

文本到音頻生成
立體聲音頻合成
條件音頻生成

Use Cases

創意音頻製作
音樂片段生成
根據文本描述生成特定風格的音樂片段。
生成44.1kHz立體聲音頻
音效設計
生成特定音效,如錘子敲擊木質表面的聲音。
高質量音效生成
研究應用
音頻生成算法研究
用於研究文本到音頻生成算法和模型。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase