🚀 Stable Audio Open Small
Stable Audio Open Small
は、テキストプロンプトから44.1kHzの可変長(最大11秒)のステレオオーディオを生成するモデルです。商用利用については、https://stability.ai/license を参照してください。
🚀 クイックスタート
このモデルは、stable-audio-tools
ライブラリと一緒に使用できます。
💻 使用例
基本的な使用法
import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
device = "cuda" if torch.cuda.is_available() else "cpu"
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]
model = model.to(device)
conditioning = [{
"prompt": "128 BPM tech house drum loop",
"seconds_total": 11
}]
output = generate_diffusion_cond(
model,
steps=8,
conditioning=conditioning,
sample_size=sample_size,
sampler_type="pingpong",
device=device
)
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)
✨ 主な機能
Stable Audio Open Small
は、オートエンコーダ、T5ベースのテキスト埋め込み、トランスフォーマーベースの拡散(DiT)モデルの3つのコンポーネントで構成されています。これにより、テキストプロンプトから可変長のステレオオーディオを生成できます。
📚 ドキュメント
モデルの詳細
Arm CPU最適化
このモデルをArm CPUで最大限のパフォーマンスを得るためにさらに最適化するには、Arm Learning Path を通じたデプロイガイドに従ってください。
学習データセット
使用されたデータセット
このデータセットは、486492のオーディオ録音で構成されています。そのうち、472618はFreesoundから、13874はFree Music Archive(FMA)から取得されています。すべてのオーディオファイルは、CC0、CC BY、またはCC Sampling+ライセンスの下で提供されています。FreesoundとFree Music Archiveのデータセットは、オートエンコーダの学習に使用されました。DiTは、Freesoundデータセットのみで学習されました。テキスト条件付けには、公開されている事前学習済みのT5モデル(t5-base)を使用しています。
帰属
Stable Audio Open Small
の学習に使用されたすべてのオーディオ録音の帰属情報は、帰属ページ で確認できます。
対策
学習を開始する前に、学習データに不正な著作権音楽が含まれていないことを確認するために、詳細な分析を行いました。
具体的には、まずFreesoundの音楽サンプルを、AudioSetクラスに基づくPANNs 音楽分類器を使用して特定しました。特定された音楽サンプルは、少なくとも30秒の音楽が、音楽関連のクラスに属すると予測され、閾値0.15(PANNsの出力確率は0から1の範囲)で分類されました。この閾値は、FMAの既知の音楽サンプルを分類し、誤検知がないことを確認することで決定されました。
特定された音楽サンプルは、信頼できるコンテンツ検出会社であるAudible Magicの識別サービスに送られ、著作権音楽が含まれていないことを確認しました。Audible Magicが著作権音楽としてフラグを立てたコンテンツは、学習前に削除されました。削除されたコンテンツの大部分は、背景に著作権音楽が流れているフィールド録音でした。この手順により、266324のCC0、194840のCC-BY、および11454のCC Sampling+オーディオ録音が残りました。
また、FMAのサブセットに著作権コンテンツが含まれていないことを確認するためにも、詳細な分析を行いました。この場合、手順は少し異なり、FMAのサブセットは音楽信号で構成されているため、著作権音楽の大規模なデータベース(https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset) とのメタデータ検索を行い、潜在的な一致をフラグ付けしました。フラグ付けされたコンテンツは、人間によって個別にレビューされました。このプロセスの後、8967のCC-BYと4907のCC0トラックが残りました。
使用と制限
意図された使用法
Stable Audio Open Small
の主な用途は、AIベースの音楽およびオーディオ生成に関する研究と実験です。具体的には以下のような用途があります。
- 生成モデルの制限をより深く理解し、科学の現状をさらに改善するための研究活動。
- 機械学習の専門家やアーティストが、生成AIモデルの現在の能力を探索するためのテキストによる音楽およびオーディオの生成。
対象外の使用事例
このモデルは、さらなるリスク評価と対策を行わずに下流のアプリケーションで使用しないでください。また、人々に敵対的または疎外感を与えるオーディオや音楽作品を意図的に作成または配布するために使用しないでください。
制限
- このモデルは、リアルなボーカルを生成することができません。
- このモデルは英語の説明で学習されているため、他の言語では性能が低下します。
- このモデルは、すべての音楽スタイルや文化に対して同等の性能を発揮しません。
- このモデルは、音楽よりも効果音やフィールド録音の生成に優れています。
- どのようなテキスト説明が最良の生成結果をもたらすかを評価することは、時に難しい場合があります。満足のいく結果を得るためには、プロンプトエンジニアリングが必要になる場合があります。
バイアス
データのソースは多様性に欠ける可能性があり、すべての文化がデータセットに平等に表されているわけではありません。このため、モデルは存在する様々な音楽ジャンルや効果音に対して同等の性能を発揮しない可能性があります。モデルから生成されるサンプルは、学習データのバイアスを反映します。
📄 ライセンス
このモデルは、Stability AI Community License の下で提供されています。商用利用については、https://stability.ai/license を参照してください。
⚠️ 重要提示
「同意する」をクリックすると、ライセンス契約 に同意し、Stability AIのプライバシーポリシー を承認することになります。
💡 使用建议
このモデルを使用する前に、ライセンス契約とプライバシーポリシーをよく読んでください。また、商用利用の場合は、適切なライセンスを取得する必要があります。