perceiver-ar-sam-giant-midi開源符號音頻模型 - 免費實現高質量符號音頻生成

首頁

Perceiver Ar Sam Giant Midi

由krasserm開發

基於Perceiver AR架構的符號音頻模型，在GiantMIDI-Piano數據集上預訓練，用於符號音頻生成

音頻生成

Transformers

開源協議:Apache-2.0 #鋼琴音樂生成 #長序列建模 #符號音頻處理

下載量 153

發布時間 : 5/3/2023

模型概述

該模型是一個基於Perceiver AR架構的符號音頻模型，主要用於基於用戶定義初始潛在標記數量的音頻生成。

模型特點

長上下文處理能力

通過混合自注意力與交叉注意力機制，可處理比純自注意力解碼器更長的上下文（最長6144個標記）。

旋轉位置編碼

採用旋轉位置編碼進行相對位置編碼，提升模型對序列位置關係的理解能力。

符號音頻建模

專門針對MIDI格式的符號音頻數據進行建模和生成。

模型能力

符號音頻生成

音樂續寫

MIDI文件生成

使用案例

音樂創作

音樂片段續寫

基於用戶提供的音樂片段提示，自動生成後續音樂內容

可生成風格連貫的音樂續寫片段

音樂風格模仿

通過學習特定風格的MIDI數據，生成類似風格的音樂

可模仿訓練數據中的音樂風格特徵

教育娛樂

音樂創作輔助

為音樂學習者提供創作靈感和素材

可生成簡單旋律供學習和改編

🚀 Perceiver AR 符號音頻模型

這是一個基於 Perceiver AR 的符號音頻模型（1.34 億參數），在 GiantMIDI - Piano 數據集上進行了 27 個輪次（1.57 億個標記）的預訓練。它使用旋轉嵌入進行相對位置編碼。該模型是 perceiver - io 庫的一個訓練示例。

🚀 快速開始

若要使用此模型，你首先需要安裝帶有 audio 擴展的 perceiver-io 庫：

pip install perceiver-io[audio]

然後可以使用 PyTorch 來使用該模型，具體使用方法見下方“💻 使用示例”部分。

✨ 主要特性

基於 Perceiver AR 架構，是對僅解碼器的 Transformer（如 GPT - 2）的簡單擴展。
在第一個注意力層中對輸入序列的較長前綴進行交叉注意力操作，能夠處理比僅基於自注意力的解碼器 Transformer 更大的上下文。
使用旋轉嵌入進行相對位置編碼。

📚 詳細文檔

模型描述

Perceiver AR 是對像 GPT - 2 這樣的純僅解碼器 Transformer 的簡單擴展。兩者的核心構建塊都是 解碼器層，它由一個自注意力層和一個逐位置的多層感知機（MLP）組成。自注意力使用因果注意力掩碼。

Perceiver AR 在其第一個注意力層中還會對輸入序列的較長前綴進行交叉注意力操作。這一層是一個混合的自注意力和交叉注意力層。自注意力作用於輸入序列的最後 n 個位置，並使用因果注意力掩碼；交叉注意力從最後 n 個位置指向前 m 個位置。輸入序列的長度為 m + n。這使得 Perceiver AR 能夠處理比僅基於自注意力的解碼器 Transformer 大得多的上下文。

圖 1. Perceiver AR 中 m = 8 個前綴標記和 n = 3 個潛在標記的注意力機制。

混合注意力層的輸出是與輸入序列的最後 n 個標記相對應的 n 個潛在數組。這些數組會被一個由 L - 1 個解碼器層組成的棧進一步處理，其中注意力層的總數為 L。最後一層（圖 1 中未顯示）會為每個潛在位置預測目標標記。最後一層的權重與輸入嵌入層共享。除了對前綴序列的初始交叉注意力之外，Perceiver AR 在架構上與僅解碼器的 Transformer 相同。

模型訓練

該模型在 GiantMIDI - Piano 數據集上進行了訓練，任務為符號音頻建模，訓練了 27 個輪次（1.57 億個標記）。該數據集由 MIDI 文件組成，使用 Perceiver AR 論文中的方法進行標記化，該方法在 Huang 等人 (2019) 的 A.2 節中有詳細描述。

所有超參數總結在訓練腳本中。上下文長度設置為 6144 個標記，其中有 2048 個潛在位置，最大前綴長度為 4096。每個示例的實際前綴長度在 0 到 4096 之間隨機選擇。訓練使用 PyTorch Lightning 進行，訓練得到的檢查點使用特定庫的轉換工具轉換為這個 🤗 模型。

預期用途和限制

該模型可用於音頻生成，用戶可以自定義初始潛在標記的數量。它主要用於演示如何使用 perceiver - io 庫訓練 Perceiver AR 模型。為了提高生成音頻樣本的質量，需要使用比 GiantMIDI - Piano 大得多的數據集進行訓練。

💻 使用示例

基礎用法

使用此模型前，需先安裝 perceiver-io 庫：

pip install perceiver-io[audio]

然後可以直接使用模型生成 MIDI 文件：

import torch

from perceiver.model.audio.symbolic import PerceiverSymbolicAudioModel
from perceiver.data.audio.midi_processor import decode_midi, encode_midi
from pretty_midi import PrettyMIDI

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

model = PerceiverSymbolicAudioModel.from_pretrained(repo_id)

prompt_midi = PrettyMIDI("prompt.mid")
prompt = torch.tensor(encode_midi(prompt_midi)).unsqueeze(0)

output = model.generate(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0)

output_midi = decode_midi(output[0].cpu().numpy())
type(output_midi)

pretty_midi.pretty_midi.PrettyMIDI

高級用法

使用 symbolic - audio - generation 管道生成 MIDI 輸出：

from transformers import pipeline
from pretty_midi import PrettyMIDI
from perceiver.model.audio import symbolic  # auto-class registration

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

prompt = PrettyMIDI("prompt.mid")
audio_generator = pipeline("symbolic-audio-generation", model=repo_id)

output = audio_generator(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0)
type(output["generated_audio_midi"])

pretty_midi.pretty_midi.PrettyMIDI

或者使用 fluidsynth 渲染 MIDI 符號以生成 WAV 輸出（注意：為使以下示例正常工作，必須安裝 fluidsynth）：

from transformers import pipeline
from pretty_midi import PrettyMIDI
from perceiver.model.audio import symbolic  # auto-class registration

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

prompt = PrettyMIDI("prompt.mid")
audio_generator = pipeline("symbolic-audio-generation", model=repo_id)

output = audio_generator(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0, render=True)

with open("generated_audio.wav", "wb") as f:
    f.write(output["generated_audio_wav"])

🎵 音頻示例

以下（精心挑選的）音頻示例是使用 GiantMIDI - Piano 數據集驗證子集的各種提示生成的。輸入提示不包含在音頻輸出中。

Top - K	Top - p	溫度	前綴長度	潛在標記數
-	0.95	0.95	4096	1
-	0.95	1.0	4096	64
-	0.95	1.0	1024	1
15	-	1.0	4096	16
-	0.95	1.0	4096	1

🔄 檢查點轉換

krasserm/perceiver - ar - sam - giant - midi 模型是從訓練檢查點創建的，代碼如下：

from perceiver.model.audio.symbolic import convert_checkpoint

convert_checkpoint(
    save_dir="krasserm/perceiver-ar-sam-giant-midi",
    ckpt_url="https://martin-krasser.com/perceiver/logs-0.8.0/sam/version_1/checkpoints/epoch=027-val_loss=1.944.ckpt",
    push_to_hub=True,
)

📄 許可證

本項目採用 Apache - 2.0 許可證。

📚 引用

@inproceedings{hawthorne2022general,
  title={General-purpose, long-context autoregressive modeling with perceiver ar},
  author={Hawthorne, Curtis and Jaegle, Andrew and Cangea, C{\u{a}}t{\u{a}}lina and Borgeaud, Sebastian and Nash, Charlie and Malinowski, Mateusz and Dieleman, Sander and Vinyals, Oriol and Botvinick, Matthew and Simon, Ian and others},
  booktitle={International Conference on Machine Learning},
  pages={8535--8558},
  year={2022},
  organization={PMLR}
}