stable-audio-open-smallオープンソースオーディオモデル - テキストプロンプトに基づいて11秒の立体サウンドオーディオを生成

ホーム

Stable Audio Open Small

stabilityaiによって開発

テキストプロンプトに基づいて最大11秒の44.1kHzステレオオーディオを生成する拡散モデル

音声生成

Safetensors

英語オープンソースライセンス:その他 #ショートオーディオ生成 #テキストからオーディオへ #44.1kHzハイファイ

ダウンロード数 1,171

リリース時間 : 5/12/2025

モデル概要

このモデルはテキスト記述に基づいて高品質なショートオーディオクリップを生成でき、オートエンコーダ、テキスト埋め込みモジュール、Transformerベースの拡散モデルの3つのコアコンポーネントを含みます

モデル特徴

高品質オーディオ生成

44.1kHz CD品質のステレオオーディオクリップを生成可能

テキスト条件制御

T5テキスト埋め込みによりテキストからオーディオへの精密な制御を実現

高速推論

8ステップサンプリングをサポートし効率的な生成を実現

著作権準拠

トレーニングデータは厳格な著作権スクリーニングを経ており、CCライセンスコンテンツのみを使用

モデル能力

テキストガイドオーディオ生成

音楽クリップ生成

サウンドエフェクト生成

ショートオーディオループ生成

使用事例

クリエイティブ制作

バックグラウンドミュージック生成

ビデオプロジェクト向けにカスタムバックグラウンドミュージックを迅速に生成

11秒以内の音楽ループクリップ

サウンドエフェクトデザイン

テキスト記述に基づいて特定のサウンドエフェクトを生成

高品質なサウンドエフェクトクリップ

研究実験

生成モデル研究

オーディオ生成モデルの限界と可能性を探求

オーディオAI分野の発展を推進

🚀 Stable Audio Open Small

Stable Audio Open Small は、テキストプロンプトから44.1kHzの可変長（最大11秒）のステレオオーディオを生成するモデルです。商用利用については、https://stability.ai/license を参照してください。

🚀 クイックスタート

このモデルは、stable-audio-tools ライブラリと一緒に使用できます。

💻 使用例

基本的な使用法

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# Download model
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# Set up text and timing conditioning
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# Generate stereo audio
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# Rearrange audio batch to a single sequence
output = rearrange(output, "b d n -> d (b n)")

# Peak normalize, clip, convert to int16, and save to file
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

✨ 主な機能

Stable Audio Open Small は、オートエンコーダ、T5ベースのテキスト埋め込み、トランスフォーマーベースの拡散（DiT）モデルの3つのコンポーネントで構成されています。これにより、テキストプロンプトから可変長のステレオオーディオを生成できます。

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	`Stable Audio Open Small` は、トランスフォーマーアーキテクチャに基づく潜在拡散モデルです。
言語	英語
ライセンス	Stability AI Community License
商用ライセンス	このモデルを商用利用する場合は、https://stability.ai/license を参照してください。
研究論文	https://arxiv.org/abs/2505.08175

Arm CPU最適化

このモデルをArm CPUで最大限のパフォーマンスを得るためにさらに最適化するには、Arm Learning Path を通じたデプロイガイドに従ってください。

学習データセット

使用されたデータセット

このデータセットは、486492のオーディオ録音で構成されています。そのうち、472618はFreesoundから、13874はFree Music Archive（FMA）から取得されています。すべてのオーディオファイルは、CC0、CC BY、またはCC Sampling+ライセンスの下で提供されています。FreesoundとFree Music Archiveのデータセットは、オートエンコーダの学習に使用されました。DiTは、Freesoundデータセットのみで学習されました。テキスト条件付けには、公開されている事前学習済みのT5モデル（t5-base）を使用しています。

帰属

Stable Audio Open Small の学習に使用されたすべてのオーディオ録音の帰属情報は、帰属ページで確認できます。

対策

学習を開始する前に、学習データに不正な著作権音楽が含まれていないことを確認するために、詳細な分析を行いました。

具体的には、まずFreesoundの音楽サンプルを、AudioSetクラスに基づくPANNs 音楽分類器を使用して特定しました。特定された音楽サンプルは、少なくとも30秒の音楽が、音楽関連のクラスに属すると予測され、閾値0.15（PANNsの出力確率は0から1の範囲）で分類されました。この閾値は、FMAの既知の音楽サンプルを分類し、誤検知がないことを確認することで決定されました。

特定された音楽サンプルは、信頼できるコンテンツ検出会社であるAudible Magicの識別サービスに送られ、著作権音楽が含まれていないことを確認しました。Audible Magicが著作権音楽としてフラグを立てたコンテンツは、学習前に削除されました。削除されたコンテンツの大部分は、背景に著作権音楽が流れているフィールド録音でした。この手順により、266324のCC0、194840のCC-BY、および11454のCC Sampling+オーディオ録音が残りました。

また、FMAのサブセットに著作権コンテンツが含まれていないことを確認するためにも、詳細な分析を行いました。この場合、手順は少し異なり、FMAのサブセットは音楽信号で構成されているため、著作権音楽の大規模なデータベース（https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset）とのメタデータ検索を行い、潜在的な一致をフラグ付けしました。フラグ付けされたコンテンツは、人間によって個別にレビューされました。このプロセスの後、8967のCC-BYと4907のCC0トラックが残りました。

使用と制限

意図された使用法

Stable Audio Open Small の主な用途は、AIベースの音楽およびオーディオ生成に関する研究と実験です。具体的には以下のような用途があります。

生成モデルの制限をより深く理解し、科学の現状をさらに改善するための研究活動。
機械学習の専門家やアーティストが、生成AIモデルの現在の能力を探索するためのテキストによる音楽およびオーディオの生成。

対象外の使用事例

このモデルは、さらなるリスク評価と対策を行わずに下流のアプリケーションで使用しないでください。また、人々に敵対的または疎外感を与えるオーディオや音楽作品を意図的に作成または配布するために使用しないでください。

制限

このモデルは、リアルなボーカルを生成することができません。
このモデルは英語の説明で学習されているため、他の言語では性能が低下します。
このモデルは、すべての音楽スタイルや文化に対して同等の性能を発揮しません。
このモデルは、音楽よりも効果音やフィールド録音の生成に優れています。
どのようなテキスト説明が最良の生成結果をもたらすかを評価することは、時に難しい場合があります。満足のいく結果を得るためには、プロンプトエンジニアリングが必要になる場合があります。