R

Riffusion

Narsilによって開発
Stable Diffusion技術に基づくリアルタイム音楽生成モデル。テキスト入力からスペクトログラムを生成し、オーディオクリップに変換可能
ダウンロード数 14
リリース時間 : 12/15/2022

モデル概要

Riffusionは潜在的なテキスト-画像拡散モデルで、テキストプロンプトからスペクトログラムを生成し、さらにオーディオクリップに変換できます。このモデルはStable-Diffusion-v1-5をファインチューニングしたもので、クリエイティブな音楽生成や研究用途に適しています。

モデル特徴

リアルタイム音楽生成
テキストプロンプトに基づいてリアルタイムで音楽スペクトログラムを生成し、オーディオに変換可能
Stable Diffusion技術ベース
確立されたStable-Diffusion-v1-5モデルをファインチューニングしており、信頼性の高い生成能力を有する
オープンライセンス
CreativeML OpenRAIL-Mライセンスを採用しており、商用および研究利用が可能

モデル能力

テキストからオーディオ生成
音楽スペクトログラム生成
リアルタイムオーディオ合成

使用事例

クリエイティブアート
音楽制作
アーティストやミュージシャンがテキストプロンプトを使用してユニークな音楽クリップを生成可能
オーディオに変換可能なスペクトログラムを生成
教育研究
生成モデル研究
研究者がテキストからオーディオへの生成モデル技術を探索可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase