Musicgen-songstarter-v0.2オープンソースのテキストから音声へのモデル - 音楽制作家に無料で曲のアイデアを生成する

Musicgen Songstarter V0.2

naterawによって開発

musicgen-stereo-melody-largeをファインチューニングしたテキストからオーディオへの変換モデルで、音楽プロデューサー向けに設計されており、32kHzステレオオーディオの楽曲アイデアを生成可能

ダウンロード数 22.11k

リリース時間 : 4/12/2024

モデル概要

このモデルはFacebookのmusicgen-stereo-melody-largeモデルをファインチューニングし、Spliceサンプルライブラリのメロディーループを使用してトレーニングされ、音楽プロデューサーに実用的な楽曲アイデアを生成することを目的としています。

モデル特徴

高品質音楽生成

32kHzハイファイステレオオーディオを生成可能で、プロフェッショナルな音楽制作に適しています

楽曲インスピレーション

音楽プロデューサー向けに特別に設計されており、実用的な楽曲フラグメントやインスピレーションを生成可能

メロディーガイド対応

入力されたメロディーオーディオに基づいてマッチする音楽コンテンツを生成可能

改良されたトレーニングデータ

v0.1バージョンと比較して、トレーニングデータ量が3倍に増加し、モデルサイズが2倍に拡大しました

モデル能力

テキスト記述からの音楽生成

無条件音楽生成

メロディーベースの音楽生成

マルチスタイル音楽創作

使用事例

音楽制作

楽曲アイデア生成

音楽プロデューサーに創作インスピレーションと開始素材を提供

音楽制作にすぐに使用可能なオーディオフラグメントを生成

メロディー拡張

シンプルなメロディー入力に基づいて完全な音楽アレンジを生成

シンプルなメロディーを豊かな音楽作品に発展させる

コンテンツ創作

バックグラウンドミュージック生成

動画、ポッドキャストなどのコンテンツ向けにカスタマイズされたバックグラウンドミュージックを創作

コンテンツの雰囲気に合ったバックグラウンドミュージックを迅速に生成

🚀 musicgen-songstarter-v0.2

musicgen-songstarter-v0.2は、音楽制作に役立つ曲のアイデアを生成するためのモデルです。このモデルは、musicgen-stereo-melody-largeをSpliceサンプルライブラリのメロディループデータセットでファインチューニングしたもので、32kHzのステレオオーディオを生成します。

🚀 クイックスタート

musicgen-songstarter-v0.2を使用するには、まずaudiocraftをインストールする必要があります。その後、このモデルをHub上の他のMusicGenチェックポイントと同じようにロードできます。

✨ 主な機能

音楽制作に役立つ曲のアイデアを生成します。
32kHzのステレオオーディオを生成します。
条件付きおよび無条件のオーディオサンプルを生成できます。
与えられたオーディオのメロディを使用して生成することもできます。

📦 インストール

まず、audiocraftをインストールします。

pip install -U git+https://github.com/facebookresearch/audiocraft#egg=audiocraft

💻 使用例

基本的な使用法

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('nateraw/musicgen-songstarter-v0.2')
model.set_generation_params(duration=8)  # generate 8 seconds.
wav = model.generate_unconditional(4)    # generates 4 unconditional audio samples
descriptions = ['acoustic, guitar, melody, trap, d minor, 90 bpm'] * 3
wav = model.generate(descriptions)  # generates 3 samples.

melody, sr = torchaudio.load('./assets/bach.mp3')
# generates using the melody from the given audio and the provided descriptions.
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):
    # Will save under {idx}.wav, with loudness normalization at -14 db LUFS.
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True)

📚 ドキュメント

プロンプト形式

以下のプロンプト形式に従ってください。

{tag_1}, {tag_2}, ..., {tag_n}, {key}, {bpm} bpm

例えば：

hip hop, soul, piano, chords, jazz, neo jazz, G# minor, 140 bpm

いくつかの例のタグについては、musicgen-songstarter-v0.1のREADMEのプロンプト形式セクションを参照してください。そこのタグは小さいv1データセット用のものですが、モデルが学習した内容のアイデアを得ることができます。

サンプル

オーディオプロンプト	テキストプロンプト	出力
	trap, synthesizer, songstarters, dark, G# minor, 140 bpm
	acoustic, guitar, melody, trap, D minor, 90 bpm

🔧 技術詳細

詳細な情報については、ブログ記事を参照してください。

コード：
- リポジトリはこちらにあります。これはfacebookresearch/audiocraftの未公開のフォークで、PyTorch Lightningを使ってトレーニングループを書き直しています。
データ：
- 約1700 - 1800のサンプルを個人のSpliceアカウントで手動で聴き、購入しました。約7 - 8時間のオーディオです。
- ライセンスの条件上、データを共有することはできません。
ハードウェア：
- Lambda Labsからの8xA100 40GBインスタンスを使用しました。
手順：
- 10kステップでトレーニングし、約6時間かかりました。
- トレーニング時のセグメントの長さを15秒に短縮しました。
ハイパーパラメータ/ログ：
- wandbの実行を参照してください。これにはトレーニングメトリクス、ログ、トレーニング時のハードウェアメトリクス、ハイパーパラメータ、およびトレーニングスクリプトを実行したときに使用した正確なコマンドが含まれています。