Riffusion開源音樂生成模型 - 依據文本即時生成音頻片段，輕鬆創作音樂

首頁

Riffusion

由Narsil開發

基於穩定擴散技術的即時音樂生成模型，可根據文本輸入生成頻譜圖並轉換為音頻片段

文本生成音頻開源協議:Openrail #頻譜圖生成 #即時音樂生成 #文本轉音頻

下載量 14

發布時間 : 12/15/2022

模型概述

Riffusion是一個潛在文本-圖像擴散模型，能夠根據文本提示生成頻譜圖，這些頻譜圖可進一步轉換為音頻片段。該模型基於Stable-Diffusion-v1-5微調而成，適用於創意音樂生成和研究用途。

模型特點

即時音樂生成

能夠根據文本提示即時生成音樂頻譜圖並轉換為音頻

基於穩定擴散技術

基於成熟的Stable-Diffusion-v1-5模型微調，具有可靠的生成能力

開放許可

採用CreativeML OpenRAIL-M許可協議，允許商用和研究使用

模型能力

文本到音頻生成

音樂頻譜圖生成

即時音頻合成

使用案例

創意藝術

音樂創作

藝術家和音樂人可以使用文本提示生成獨特的音樂片段

生成可轉換為音頻的頻譜圖

教育研究

生成模型研究

研究人員可以探索文本到音頻的生成模型技術

🚀 Riffusion

Riffusion 是一款藉助穩定擴散技術實現即時音樂生成的應用程序。它能夠依據文本輸入生成頻譜圖圖像，並將這些頻譜圖轉換為音頻片段。

你可以在這裡瞭解更多相關信息，還能在此處親自體驗。

網頁應用：https://github.com/hmartiro/riffusion-app
推理服務器：https://github.com/hmartiro/riffusion-inference
模型檢查點：https://huggingface.co/riffusion/riffusion-model-v1

本倉庫包含以下模型文件：

一個 diffusers 格式的庫
一個編譯後的檢查點文件
一個為提高推理速度而追蹤的 unet
一個供 riffusion-app 使用的種子圖像庫

🚀 快速開始

本模型是開放訪問的，所有人都可以使用，其遵循 CreativeML OpenRAIL - M 許可協議，該協議進一步明確了權利和使用規定。

許可協議說明

你不得使用該模型故意生成或分享非法或有害的輸出內容。
Riffusion 對您生成的輸出內容不主張任何權利，您可以自由使用這些內容，但需對其使用負責，且使用行為不得違反許可協議中的規定。
您可以重新分發模型權重，並將模型用於商業用途或作為服務使用。如果您這樣做，請務必包含與許可協議中相同的使用限制，並向所有用戶提供一份 CreativeML OpenRAIL - M 許可協議副本（請完整、仔細地閱讀許可協議）。

請仔細閱讀完整的許可協議：https://huggingface.co/spaces/CompVis/stable-diffusion-license

✨ 主要特性

Riffusion 是一個潛在的文本到圖像擴散模型，能夠根據任何文本輸入生成頻譜圖圖像，這些頻譜圖可以轉換為音頻剪輯。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Seth Forsgren、Hayk Martiros
模型類型	基於擴散的文本到圖像生成模型
語言	英語
許可證	CreativeML OpenRAIL M 許可證是一種 Open RAIL M 許可證，它改編自 BigScience 和 RAIL Initiative 在負責任的人工智能許可領域的聯合工作。另見關於 BLOOM Open RAIL 許可證的文章，我們的許可證基於此。
模型描述	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用固定的預訓練文本編碼器（CLIP ViT - L/14），如 Imagen 論文中所建議的那樣。

直接使用

該模型僅用於研究目的，可能的研究領域和任務包括：

藝術品、音頻的生成以及在創意過程中的應用。
在教育或創意工具中的應用。
生成模型的研究。

引用

如果您基於此工作進行開發，請按以下方式引用：

@software{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}