riffusion-model-v1開源音樂生成模型 - 根據文本即時創作獨特音頻片段

首頁

Riffusion Model V1

由riffusion開發

Riffusion是一款基於穩定擴散技術的即時音樂生成應用，可根據文本輸入生成頻譜圖並轉換為音頻片段。

文本生成音頻開源協議:Openrail #文本生成音頻頻譜 #即時音樂生成 #穩定擴散微調

下載量 2,354

發布時間 : 12/13/2022

模型概述

Riffusion是一種潛在文本-圖像擴散模型，通過微調Stable-Diffusion-v1-5檢查點實現音樂頻譜圖生成，可轉換為音頻片段。

模型特點

即時音樂生成

能夠根據文本提示即時生成音樂頻譜圖並轉換為音頻片段

基於穩定擴散技術

採用經過微調的Stable-Diffusion-v1-5模型架構，具備強大的生成能力

開放許可

採用CreativeML OpenRAIL-M許可證，允許商用和研究用途

模型能力

文本到頻譜圖生成

頻譜圖到音頻轉換

即時音樂創作

創意音頻生成

使用案例

藝術創作

音樂作品生成

根據文本描述自動生成原創音樂片段

生成可播放的音頻文件

教育工具

音樂概念教學

通過可視化頻譜圖輔助音樂理論教學

直觀展示音頻與頻譜的關係

研究開發

生成模型研究

探索跨模態（文本-音頻）生成技術

🚀 Riffusion

Riffusion 是一款藉助穩定擴散技術實現即時音樂生成的應用程序。它能根據文本輸入生成頻譜圖，進而轉化為音頻片段。你可以通過此鏈接瞭解更多信息，並在這裡進行體驗。

代碼倉庫：https://github.com/riffusion/riffusion
網頁應用：https://github.com/hmartiro/riffusion-app
模型檢查點：https://huggingface.co/riffusion/riffusion-model-v1
Discord 社區：https://discord.gg/yu6SRwvX4v

本倉庫包含以下模型文件：

一個符合 diffusers 格式的庫
一個編譯後的檢查點文件
一個為提高推理速度而跟蹤的 UNet
一個供 riffusion-app 使用的種子圖像庫

✨ 主要特性

Riffusion v1 模型

Riffusion 是一個潛在的文本到圖像擴散模型，能夠根據任何文本輸入生成頻譜圖圖像，這些頻譜圖可以轉換為音頻剪輯。該模型由 Seth Forsgren 和 Hayk Martiros 作為業餘項目創建。你可以直接使用 Riffusion 模型，也可以嘗試 Riffusion 網頁應用。

Riffusion 模型是通過微調 Stable-Diffusion-v1-5 檢查點創建的。你可以在 🤗 的 Stable Diffusion 博客中瞭解有關 Stable Diffusion 的更多信息。

模型詳情

屬性	詳情
開發者	Seth Forsgren、Hayk Martiros
模型類型	基於擴散的文本到圖像生成模型
語言	英語
許可證	CreativeML OpenRAIL M 許可證是一種 Open RAIL M 許可證，它改編自 BigScience 和 RAIL Initiative 在負責任的人工智能許可領域的聯合工作。另見關於 BLOOM Open RAIL 許可證的文章，本許可證以此為基礎。
模型描述	這是一個能夠根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用固定的預訓練文本編碼器 (CLIP ViT-L/14)，如 Imagen 論文中所建議的那樣。

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

藝術品、音頻的生成以及在創意過程中的應用。
在教育或創意工具中的應用。
生成模型的研究。

數據集

原始的 Stable Diffusion v1.5 在 LAION-5B 數據集上使用 CLIP 文本編碼器進行訓練，這為深入理解語言（包括音樂概念）提供了一個絕佳的起點。LAION 團隊還從許多通用、語音和音樂來源編譯了一個出色的音頻數據集，我們推薦查看 LAION-AI/audio-dataset。

微調

你可以查看 Hugging Face 的 diffusers 訓練示例。微調需要一個短音頻片段的頻譜圖圖像數據集，以及描述它們的相關文本。請注意，即使某些單詞從未出現在數據集中，CLIP 編碼器也能夠理解和關聯它們。也可以使用 dreambooth 方法來獲得自定義風格。

📄 許可證

本模型開放訪問，所有人均可使用，採用 CreativeML OpenRAIL-M 許可證進一步明確權利和使用方式。CreativeML OpenRAIL 許可證規定：

你不得使用該模型故意生成或分享非法或有害的輸出或內容。
Riffusion 對您生成的輸出不主張任何權利，您可以自由使用它們，並對其使用負責，且使用不得違反許可證中的規定。
您可以重新分發權重，並將模型用於商業用途和/或作為服務使用。如果這樣做，請務必包含與許可證中相同的使用限制，並向所有用戶提供一份 CreativeML OpenRAIL-M 許可證副本（請完整仔細閱讀許可證）。

請在此處仔細閱讀完整許可證：https://huggingface.co/spaces/CompVis/stable-diffusion-license

📚 詳細文檔

引用

如果您基於此工作進行開發，請按以下方式引用：

@article{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}