Riffusion开源音乐生成模型 - 依据文本实时生成音频片段，轻松创作音乐

首页

Riffusion

由 Narsil 开发

基于稳定扩散技术的实时音乐生成模型，可根据文本输入生成频谱图并转换为音频片段

文本生成音频开源协议:Openrail #频谱图生成 #实时音乐生成 #文本转音频

下载量 14

发布时间 : 12/15/2022

模型简介

Riffusion是一个潜在文本-图像扩散模型，能够根据文本提示生成频谱图，这些频谱图可进一步转换为音频片段。该模型基于Stable-Diffusion-v1-5微调而成，适用于创意音乐生成和研究用途。

模型特点

实时音乐生成

能够根据文本提示实时生成音乐频谱图并转换为音频

基于稳定扩散技术

基于成熟的Stable-Diffusion-v1-5模型微调，具有可靠的生成能力

开放许可

采用CreativeML OpenRAIL-M许可协议，允许商用和研究使用

模型能力

文本到音频生成

音乐频谱图生成

实时音频合成

使用案例

创意艺术

音乐创作

艺术家和音乐人可以使用文本提示生成独特的音乐片段

生成可转换为音频的频谱图

教育研究

生成模型研究

研究人员可以探索文本到音频的生成模型技术

🚀 Riffusion

Riffusion 是一款借助稳定扩散技术实现实时音乐生成的应用程序。它能够依据文本输入生成频谱图图像，并将这些频谱图转换为音频片段。

你可以在这里了解更多相关信息，还能在此处亲自体验。

网页应用：https://github.com/hmartiro/riffusion-app
推理服务器：https://github.com/hmartiro/riffusion-inference
模型检查点：https://huggingface.co/riffusion/riffusion-model-v1

本仓库包含以下模型文件：

一个 diffusers 格式的库
一个编译后的检查点文件
一个为提高推理速度而追踪的 unet
一个供 riffusion-app 使用的种子图像库

🚀 快速开始

本模型是开放访问的，所有人都可以使用，其遵循 CreativeML OpenRAIL - M 许可协议，该协议进一步明确了权利和使用规定。

许可协议说明

你不得使用该模型故意生成或分享非法或有害的输出内容。
Riffusion 对您生成的输出内容不主张任何权利，您可以自由使用这些内容，但需对其使用负责，且使用行为不得违反许可协议中的规定。
您可以重新分发模型权重，并将模型用于商业用途或作为服务使用。如果您这样做，请务必包含与许可协议中相同的使用限制，并向所有用户提供一份 CreativeML OpenRAIL - M 许可协议副本（请完整、仔细地阅读许可协议）。

请仔细阅读完整的许可协议：https://huggingface.co/spaces/CompVis/stable-diffusion-license

✨ 主要特性

Riffusion 是一个潜在的文本到图像扩散模型，能够根据任何文本输入生成频谱图图像，这些频谱图可以转换为音频剪辑。

📚 详细文档

模型详情

属性	详情
开发者	Seth Forsgren、Hayk Martiros
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M 许可证是一种 Open RAIL M 许可证，它改编自 BigScience 和 RAIL Initiative 在负责任的人工智能许可领域的联合工作。另见关于 BLOOM Open RAIL 许可证的文章，我们的许可证基于此。
模型描述	这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用固定的预训练文本编码器（CLIP ViT - L/14），如 Imagen 论文中所建议的那样。

直接使用

该模型仅用于研究目的，可能的研究领域和任务包括：

艺术品、音频的生成以及在创意过程中的应用。
在教育或创意工具中的应用。
生成模型的研究。

引用

如果您基于此工作进行开发，请按以下方式引用：

@software{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}