Riffusionオープンソース音楽生成モデル - テキストに基づいてリアルタイムにオーディオクリップを生成し、簡単に音楽を創作

Riffusion

Narsilによって開発

Stable Diffusion技術に基づくリアルタイム音楽生成モデル。テキスト入力からスペクトログラムを生成し、オーディオクリップに変換可能

テキスト生成オーディオオープンソースライセンス:Openrail #スペクトログラム生成 #リアルタイム音楽生成 #テキストからオーディオ

ダウンロード数 14

リリース時間 : 12/15/2022

モデル概要

Riffusionは潜在的なテキスト-画像拡散モデルで、テキストプロンプトからスペクトログラムを生成し、さらにオーディオクリップに変換できます。このモデルはStable-Diffusion-v1-5をファインチューニングしたもので、クリエイティブな音楽生成や研究用途に適しています。

モデル特徴

リアルタイム音楽生成

テキストプロンプトに基づいてリアルタイムで音楽スペクトログラムを生成し、オーディオに変換可能

Stable Diffusion技術ベース

確立されたStable-Diffusion-v1-5モデルをファインチューニングしており、信頼性の高い生成能力を有する

オープンライセンス

CreativeML OpenRAIL-Mライセンスを採用しており、商用および研究利用が可能

モデル能力

テキストからオーディオ生成

音楽スペクトログラム生成

リアルタイムオーディオ合成

使用事例

クリエイティブアート

音楽制作

アーティストやミュージシャンがテキストプロンプトを使用してユニークな音楽クリップを生成可能

オーディオに変換可能なスペクトログラムを生成

教育研究

生成モデル研究

研究者がテキストからオーディオへの生成モデル技術を探索可能

🚀 Riffusion

Riffusionは、Stable Diffusionを用いたリアルタイム音楽生成アプリです。

詳細は https://www.riffusion.com/about をご覧いただき、実際に試すには https://www.riffusion.com/ をご利用ください。

Webアプリ: https://github.com/hmartiro/riffusion-app
推論サーバー: https://github.com/hmartiro/riffusion-inference
モデルチェックポイント: https://huggingface.co/riffusion/riffusion-model-v1

このリポジトリには以下のモデルファイルが含まれています。

diffusers形式のライブラリ
コンパイルされたチェックポイントファイル
推論速度を向上させたトレース済みのU-Net
riffusion-appで使用するためのシード画像ライブラリ

🚀 クイックスタート

Riffusionは、任意のテキスト入力からスペクトログラム画像を生成できる潜在的なテキスト-to-画像拡散モデルです。これらのスペクトログラムは音声クリップに変換できます。

このモデルは、Seth Forsgren と Hayk Martiros によって趣味プロジェクトとして作成されました。

Riffusionモデルを直接使用することも、Riffusionウェブアプリを試すこともできます。

Riffusionモデルは、Stable-Diffusion-v1-5 チェックポイントをファインチューニングして作成されました。Stable Diffusionについては、🤗のStable Diffusionブログをご覧ください。

✨ 主な機能

潜在的なテキスト-to-画像拡散モデルにより、任意のテキスト入力からスペクトログラム画像を生成可能。
生成されたスペクトログラムを音声クリップに変換できる。

📚 ドキュメント

モデル詳細

属性	详情
開発者	Seth Forsgren, Hayk Martiros
モデルタイプ	拡散ベースのテキスト-to-画像生成モデル
言語	英語
ライセンス	CreativeML OpenRAIL Mライセンスは、Open RAIL Mライセンスであり、BigScience と RAIL Initiative が共同で進める責任あるAIライセンスの分野の作業を元にしています。また、このライセンスの基礎となった BLOOM Open RAILライセンスに関する記事も参照してください。
モデル説明	このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。Latent Diffusion Model であり、Imagen論文で提案されているように、固定された事前学習済みのテキストエンコーダー (CLIP ViT-L/14) を使用しています。

直接利用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。

アートワーク、オーディオの生成、およびクリエイティブなプロセスでの使用。
教育またはクリエイティブツールでの応用。
生成モデルに関する研究。

引用

この成果を基に研究を行う場合は、以下のように引用してください。

@software{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}

📄 ライセンス

このモデルはオープンアクセスであり、すべてのユーザーが利用できます。CreativeML OpenRAIL-Mライセンスにより、権利と使用方法がさらに明確に規定されています。

CreativeML OpenRAILライセンスでは以下が規定されています。

モデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有することはできません。
Riffusionは、ユーザーが生成した出力に対して何らの権利も主張しません。ユーザーは自由にそれらを使用できますが、ライセンスに定められた規定に違反しないように使用する責任があります。
モデルの重みを再配布し、商業的に使用することやサービスとして提供することができます。その場合、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があります（ライセンス全体を注意深く読んでください）。

ライセンス全文はこちらをご覧ください: https://huggingface.co/spaces/CompVis/stable-diffusion-license