Musicgen-songstarter-v0.2開源文本轉音頻模型 - 免費為音樂製作人生成歌曲創意

首頁

Musicgen Songstarter V0.2

由nateraw開發

基於musicgen-stereo-melody-large微調的文本轉音頻模型，專為音樂製作人設計，可生成32kHz立體聲音頻的歌曲創意

音頻生成英語#音樂創意生成 #立體聲音頻 #旋律循環

下載量 22.11k

發布時間 : 4/12/2024

模型概述

該模型通過微調Facebook的musicgen-stereo-melody-large模型，使用Splice樣本庫中的旋律循環片段訓練而成，旨在為音樂製作人生成實用的歌曲創意。

模型特點

高質量音樂生成

可生成32kHz高保真立體聲音頻，適合專業音樂製作

歌曲創意啟發

專門針對音樂製作人設計，可生成實用的歌曲片段和靈感

支持旋律引導

可以根據輸入的旋律音頻生成匹配的音樂內容

改進的訓練數據

相比v0.1版本，訓練數據量增加了3倍，模型規模擴大了一倍

模型能力

文本描述生成音樂

無條件音樂生成

基於旋律的音樂生成

多風格音樂創作

使用案例

音樂製作

歌曲創意生成

為音樂製作人提供創作靈感和起始素材

生成可立即用於音樂製作的音頻片段

旋律擴展

基於簡單的旋律輸入生成完整的音樂編排

將簡單的旋律發展為豐富的音樂作品

內容創作

背景音樂生成

為視頻、播客等內容創作定製背景音樂

快速生成符合內容氛圍的背景音樂

🚀 音樂生成歌曲創意生成器 v0.2

musicgen-songstarter-v0.2 是一個基於微調的音樂生成模型，專為音樂製作人提供歌曲創意，可生成 32kHz 的立體聲音頻。

🚀 快速開始

musicgen-songstarter-v0.2 是在我的 Splice 樣本庫中的旋律循環數據集上對 musicgen-stereo-melody-large 進行微調得到的。它旨在用於生成對音樂製作人有用的歌曲創意，生成 32kHz 的立體聲音頻。

👀 更新：我寫了一篇博客文章，詳細介紹了我訓練這個模型的方式和原因，包括訓練細節、數據集、Weights and Biases 日誌等。

與 musicgen-songstarter-v0.1 相比，這個新版本：

在我在 Splice 上精心購買的獨特樣本上進行了 3 倍多的訓練。
模型大小從 medium 提升到 large，是原來的兩倍。

如果您覺得這個模型有趣，請考慮：

在 GitHub 上關注我。
在 Twitter 上關注我。

✨ 主要特性

基於微調的音樂生成模型，可生成歌曲創意。
生成 32kHz 的立體聲音頻。
支持無條件生成和基於描述的生成。
支持使用給定音頻的旋律進行生成。

📦 安裝指南

安裝 audiocraft：

pip install -U git+https://github.com/facebookresearch/audiocraft#egg=audiocraft

💻 使用示例

基礎用法

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('nateraw/musicgen-songstarter-v0.2')
model.set_generation_params(duration=8)  # 生成 8 秒的音頻。
wav = model.generate_unconditional(4)    # 生成 4 個無條件音頻樣本
descriptions = ['acoustic, guitar, melody, trap, d minor, 90 bpm'] * 3
wav = model.generate(descriptions)  # 生成 3 個樣本。

melody, sr = torchaudio.load('./assets/bach.mp3')
# 使用給定音頻的旋律和提供的描述進行生成。
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 進行響度歸一化，並保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True)

📚 詳細文檔

提示格式

遵循以下提示格式：

{標籤 1}, {標籤 2}, ..., {標籤 n}, {調式}, {bpm} bpm

例如：

hip hop, soul, piano, chords, jazz, neo jazz, G# minor, 140 bpm

有關一些示例標籤，請參閱 musicgen-songstarter-v0.1 的 README 中的提示格式部分。那裡的標籤適用於較小的 v1 數據集，但應該能讓您瞭解模型所學習的內容。

示例音頻

音頻提示	文本提示	輸出
	trap, synthesizer, songstarters, dark, G# minor, 140 bpm
	acoustic, guitar, melody, trap, D minor, 90 bpm

🔧 技術細節

訓練詳情

代碼：
- 代碼倉庫位於這裡。這是 facebookresearch/audiocraft 的一個未公開分支，我使用 PyTorch Lightning 重寫了訓練循環，這對我來說效果更好。
數據：
- 大約 1700 - 1800 個樣本，我親自聆聽並通過個人 Splice 賬戶購買。大約 7 - 8 小時的音頻。
- 由於許可條款，我無法分享這些數據。
硬件：
- 使用 Lambda Labs 的 8xA100 40GB 實例。
訓練過程：
- 訓練了 10000 步，大約需要 6 小時。
- 在訓練時將片段持續時間縮短至 15 秒。
超參數/日誌：
- 請參閱 wandb 運行記錄，其中包括訓練指標、日誌、訓練時的硬件指標、超參數以及我運行訓練腳本時使用的準確命令。