🚀 SONICS:合成與否 - 識別假冒歌曲
SONICS是一個用於端到端合成歌曲檢測的新型數據集,可有效區分人類創作歌曲與合成歌曲,保護音樂藝術的完整性。同時,其引入的SpecTTTra架構在時間和內存效率上顯著優於傳統模型。
🚀 快速開始
安裝
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")
✨ 主要特性
- 新型數據集:SONICS數據集包含超97k首歌曲(4751小時),其中超49k首為來自Suno和Udio等流行平臺的合成歌曲,彌補了現有數據集在音樂歌詞多樣性、長時長歌曲和開放訪問假歌曲方面的不足。
- 創新架構:引入SpecTTTra架構,在時間和內存效率上顯著優於傳統的基於CNN和Transformer的模型。對於長歌曲,其表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%,同時在F1分數上比ConvNeXt高1%,速度提升20%,內存減少67%。
📚 詳細文檔
摘要
近期,AI生成歌曲的激增帶來了令人興奮的可能性和挑戰。這些創新要求我們具備區分人類創作歌曲和合成歌曲的能力,以維護藝術的完整性並保護人類的音樂創作。現有的假歌曲檢測研究和數據集僅專注於歌唱語音深度偽造檢測(SVDD),即人聲由AI生成,但器樂音樂來自真實歌曲。然而,這些方法不足以檢測當代的端到端人工歌曲,因為這些歌曲的所有組成部分(人聲、音樂、歌詞和風格)都可能由AI生成。此外,現有的數據集缺乏音樂歌詞的多樣性、長時長歌曲和開放訪問的假歌曲。為了填補這些空白,我們推出了SONICS,這是一個用於端到端合成歌曲檢測(SSD)的新型數據集,包含超過97k首歌曲(4751小時),其中超過49k首是來自Suno和Udio等流行平臺的合成歌曲。此外,我們強調了在歌曲中建模長程時間依賴關係對於有效真實性檢測的重要性,而這一方面在現有方法中完全被忽視。為了利用長程模式,我們引入了SpecTTTra,這是一種新型架構,在時間和內存效率上顯著優於傳統的基於CNN和Transformer的模型。對於長歌曲,我們表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%,同時在F1分數上比ConvNeXt高1%,速度提升20%,內存減少67%。
鏈接
模型性能
模型名稱 |
HF鏈接 |
變體 |
時長 |
f_clip |
t_clip |
F1 |
靈敏度 |
特異性 |
速度 (A/S) |
FLOPs (G) |
內存 (GB) |
# 激活 (M) |
# 參數 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
模型架構
屬性 |
詳情 |
基礎模型 |
SpectTTTra(頻譜 - 時間令牌變壓器) |
嵌入維度 |
384 |
頭的數量 |
6 |
層數 |
12 |
MLP比率 |
2.67 |
音頻處理
屬性 |
詳情 |
採樣率 |
16kHz |
FFT大小 |
2048 |
跳躍長度 |
512 |
梅爾帶 |
128 |
頻率範圍 |
20Hz - 8kHz |
歸一化 |
均值 - 標準差歸一化 |
🔧 技術細節
SONICS數據集的構建旨在解決現有假歌曲檢測研究和數據集的不足,通過引入大量的合成歌曲和長時長歌曲,提高了檢測的準確性和泛化能力。SpecTTTra架構則通過對長程時間依賴關係的建模,在時間和內存效率上取得了顯著的提升,為合成歌曲檢測提供了更高效的解決方案。
📄 許可證
本項目採用MIT許可證。
📚 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}