🚀 SONICS:合成與否 - 識別假冒歌曲
SONICS是一個用於端到端合成歌曲檢測的新穎數據集,可幫助區分人類創作和合成歌曲,保護音樂藝術的完整性。同時,其引入的SpecTTTra架構在時間和內存效率上有顯著提升。
🚀 快速開始
安裝
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-120s")
✨ 主要特性
- 新穎數據集:SONICS數據集包含超過97k首歌曲(4751小時),其中有超過49k首來自Suno和Udio等流行平臺的合成歌曲,解決了現有數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問假歌曲的問題。
- 創新架構:引入SpecTTTra架構,相比傳統基於CNN和Transformer的模型,顯著提高了時間和內存效率。對於長歌曲,其表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%,同時在F1分數上比ConvNeXt高1%,速度提升20%,內存減少67%。
📚 詳細文檔
摘要
最近,AI生成歌曲的激增帶來了令人興奮的可能性和挑戰。這些創新需要具備區分人類創作和合成歌曲的能力,以維護藝術完整性並保護人類音樂創作。現有的假歌曲檢測研究和數據集僅專注於歌聲深度偽造檢測(SVDD),即歌聲是AI生成的,但器樂音樂來自真實歌曲。然而,這些方法不足以檢測當代端到端人工歌曲,因為這些歌曲的所有組成部分(歌聲、音樂、歌詞和風格)都可能是AI生成的。此外,現有的數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問的假歌曲。為了解決這些差距,我們引入了SONICS,一個用於端到端合成歌曲檢測(SSD)的新穎數據集,包含超過97k首歌曲(4751小時),其中有超過49k首來自Suno和Udio等流行平臺的合成歌曲。此外,我們強調了在歌曲中建模長距離時間依賴關係對於有效真實性檢測的重要性,而這一方面在現有方法中完全被忽視。為了利用長距離模式,我們引入了SpecTTTra,一種新穎的架構,與傳統的基於CNN和Transformer的模型相比,顯著提高了時間和內存效率。對於長歌曲,我們表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%,同時在F1分數上比ConvNeXt高1%,速度提升20%,內存減少67%。
鏈接
模型性能
模型名稱 |
HF鏈接 |
變體 |
時長 |
f_clip |
t_clip |
F1 |
靈敏度 |
特異性 |
速度 (A/S) |
FLOPs (G) |
內存 (GB) |
# 激活 (M) |
# 參數 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
模型架構
- 基礎模型:SpectTTTra(頻譜 - 時間令牌變壓器)
- 嵌入維度:384
- 頭數:6
- 層數:12
- MLP比率:2.67
音頻處理
- 採樣率:16kHz
- FFT大小:2048
- 跳躍長度:512
- 梅爾帶:128
- 頻率範圍:20Hz - 8kHz
- 歸一化:均值 - 標準差歸一化
🔧 技術細節
SONICS數據集的構建旨在解決現有假歌曲檢測方法和數據集的不足。通過引入SpecTTTra架構,利用長距離模式進行有效真實性檢測。該架構在處理長歌曲時,在F1分數、速度和內存使用方面都有顯著優勢。
📄 許可證
本項目採用MIT許可證。
📝 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}