riffusion-model-v1オープンソース音楽生成モデル - テキストに基づいてリアルタイムで独自のオーディオクリップを作成する

ホーム

Riffusion Model V1

riffusionによって開発

RiffusionはStable Diffusion技術に基づくリアルタイム音楽生成アプリケーションで、テキスト入力からスペクトログラムを生成し、オーディオクリップに変換できます。

テキスト生成オーディオオープンソースライセンス:Openrail #テキストからオーディオスペクトログラム生成 #リアルタイム音楽生成 #Stable Diffusionファインチューニング

ダウンロード数 2,354

リリース時間 : 12/13/2022

モデル概要

Riffusionは潜在的なテキスト-画像拡散モデルで、Stable-Diffusion-v1-5チェックポイントを微調整して音楽スペクトログラム生成を実現し、オーディオクリップに変換可能です。

モデル特徴

リアルタイム音楽生成

テキストプロンプトに基づいてリアルタイムで音楽スペクトログラムを生成し、オーディオクリップに変換可能

Stable Diffusion技術ベース

微調整されたStable-Diffusion-v1-5モデルアーキテクチャを採用し、強力な生成能力を備えています

オープンライセンス

CreativeML OpenRAIL-Mライセンスを採用しており、商用および研究用途が許可されています

モデル能力

テキストからスペクトログラム生成

スペクトログラムからオーディオ変換

リアルタイム音楽創作

クリエイティブオーディオ生成

使用事例

アート創作

音楽作品生成

テキスト記述に基づいてオリジナル音楽クリップを自動生成

再生可能なオーディオファイルを生成

教育ツール

音楽概念教育

可視化されたスペクトログラムを通じて音楽理論教育を支援

オーディオとスペクトルの関係を直感的に表示

研究開発

生成モデル研究

クロスモーダル（テキスト-オーディオ）生成技術の探索

🚀 Riffusion

Riffusionは、Stable Diffusionを用いたリアルタイム音楽生成アプリです。このアプリについてはこちらで詳しく読むことができ、こちらで試すことができます。

コード: https://github.com/riffusion/riffusion
Webアプリ: https://github.com/hmartiro/riffusion-app
モデルチェックポイント: https://huggingface.co/riffusion/riffusion-model-v1
Discord: https://discord.gg/yu6SRwvX4v

このリポジトリには以下のモデルファイルが含まれています。

diffusers形式のライブラリ
コンパイルされたチェックポイントファイル
推論速度を向上させたトレース済みのU-Net
riffusion-appで使用するためのシード画像ライブラリ

✨ 主な機能

Riffusion v1モデル

Riffusionは、任意のテキスト入力を受け取り、スペクトログラム画像を生成できる潜在的なテキスト-to-画像拡散モデルです。これらのスペクトログラムは音声クリップに変換できます。

このモデルは、Seth Forsgren と Hayk Martiros によって趣味プロジェクトとして作成されました。

Riffusionモデルを直接使用することも、Riffusion Webアプリを試すこともできます。

Riffusionモデルは、Stable-Diffusion-v1-5 チェックポイントをファインチューニングすることで作成されました。Stable Diffusionについては、🤗のStable Diffusionブログを参照してください。

モデルの詳細

属性	详情
開発者	Seth Forsgren, Hayk Martiros
モデルタイプ	拡散ベースのテキスト-to-画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は、Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業を基にしています。また、このライセンスの基礎となった the article about the BLOOM Open RAIL license も参照してください。
モデルの説明	これは、テキストプロンプトに基づいて画像を生成および変更できるモデルです。Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用する Latent Diffusion Model です。

直接利用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下のものが含まれます。

アートワーク、音楽の生成、および創造的なプロセスでの使用
教育または創造的なツールでのアプリケーション
生成モデルに関する研究

データセット

元のStable Diffusion v1.5は、CLIPテキストエンコーダを使用して LAION-5B データセットで学習されました。これは、音楽的概念を含む言語の深い理解を持つ素晴らしい出発点を提供しました。LAIONのチームはまた、多くの一般的な音声や音楽ソースから素晴らしい音声データセットをまとめており、LAION-AI/audio-dataset で推奨しています。

ファインチューニング

Hugging Faceの diffusers学習例をチェックしてください。ファインチューニングには、短い音声クリップのスペクトログラム画像のデータセットと、それを説明する関連テキストが必要です。CLIPエンコーダは、データセットに現れない多くの単語を理解し、関連付けることができることに注意してください。また、dreambooth 手法を使用してカスタムスタイルを取得することも可能です。

📄 ライセンス

このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスによって、さらに権利と使用方法が指定されています。

CreativeML OpenRAILライセンスは以下のことを規定しています。

モデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはなりません。
Riffusionは、あなたが生成した出力に対して何らの権利も主張せず、あなたはそれらを自由に使用できますが、その使用について責任を負い、ライセンスに定められた規定に違反してはなりません。
あなたは重みを再配布し、モデルを商用および/またはサービスとして使用することができます。その場合、ライセンスと同じ使用制限を含め、すべてのユーザーにCreativeML OpenRAIL-Mのコピーを共有する必要があります（ライセンス全体を注意深く読んでください）。

完全なライセンスについては、こちらを注意深く読んでください。

📚 引用

この成果物を基に構築する場合は、以下のように引用してください。

@article{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}