S

Stable Audio Open 1.0

由stabilityai開發
Stable Audio Open 1.0 是一個文本到音頻生成模型,能夠根據文本提示生成最長47秒的44.1kHz立體聲音頻。
下載量 36.03k
發布時間 : 5/24/2024

模型概述

該模型能夠將文本描述轉換為高質量的音頻片段,適用於創意音頻生成和研究用途。

模型特點

高質量音頻生成
能夠生成44.1kHz的立體聲音頻,最長可達47秒。
文本條件控制
使用T5文本嵌入模塊實現精確的文本到音頻轉換。
擴散模型技術
採用基於Transformer的擴散模型(DiT)在潛在空間進行音頻生成。

模型能力

文本到音頻生成
立體聲音頻合成
條件音頻生成

使用案例

創意音頻製作
音樂片段生成
根據文本描述生成特定風格的音樂片段。
生成44.1kHz立體聲音頻
音效設計
生成特定音效,如錘子敲擊木質表面的聲音。
高質量音效生成
研究應用
音頻生成算法研究
用於研究文本到音頻生成算法和模型。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase