🚀 SONICS:合成與否 - 識別假冒歌曲
SONICS是一個用於音頻分類的項目,旨在解決合成歌曲與真實歌曲的識別問題,保護音樂藝術的原創性和真實性。該項目提供了新的數據集和創新架構,在檢測性能和效率上有顯著提升。
🚀 快速開始
安裝
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")
✨ 主要特性
- 新數據集:引入SONICS數據集,用於端到端合成歌曲檢測(SSD),包含來自Suno和Udio等流行平臺的超49k首合成歌曲,共超97k首歌曲(4751小時)。
- 創新架構:提出SpecTTTra架構,相比傳統基於CNN和Transformer的模型,顯著提高了時間和內存效率。
- 性能優越:對於長歌曲,表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%;比ConvNeXt的F1分數高1%,速度快20%,內存減少67%。
📦 安裝指南
!pip install git+https://github.com/awsaf49/sonics.git
💻 使用示例
基礎用法
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")
📚 詳細文檔
🔗 相關鏈接
🏆 模型性能
模型名稱 |
HF鏈接 |
變體 |
時長 |
f_clip |
t_clip |
F1 |
靈敏度 |
特異性 |
速度 (A/S) |
FLOPs (G) |
內存 (GB) |
# 激活 (M) |
# 參數 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
📐 模型架構
屬性 |
詳情 |
基礎模型 |
SpectTTTra(頻譜 - 時間令牌變換器) |
嵌入維度 |
384 |
頭的數量 |
6 |
層數 |
12 |
MLP比率 |
2.67 |
🎶 音頻處理
屬性 |
詳情 |
採樣率 |
16kHz |
FFT大小 |
2048 |
跳躍長度 |
512 |
梅爾帶 |
128 |
頻率範圍 |
20Hz - 8kHz |
歸一化 |
均值 - 標準差歸一化 |
🔧 技術細節
近期,AI生成歌曲的激增帶來了令人興奮的可能性和挑戰。為了保護藝術完整性和人類音樂創作,需要具備區分人類創作歌曲和合成歌曲的能力。現有的假歌曲檢測研究和數據集僅專注於歌唱語音深度偽造檢測(SVDD),其中歌聲是AI生成的,但器樂音樂來自真實歌曲。然而,這些方法不足以檢測當代端到端人工合成歌曲,因為這些歌曲的所有組成部分(歌聲、音樂、歌詞和風格)都可能是AI生成的。此外,現有數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問的假歌曲。
為了解決這些差距,我們引入了SONICS,這是一個用於端到端合成歌曲檢測(SSD)的新數據集,包含來自Suno和Udio等流行平臺的超49k首合成歌曲,共超97k首歌曲(4751小時)。此外,我們強調了在歌曲中建模長距離時間依賴關係對於有效真實性檢測的重要性,而這一方面在現有方法中完全被忽視。為了利用長距離模式,我們引入了SpecTTTra,這是一種新的架構,與傳統的基於CNN和Transformer的模型相比,顯著提高了時間和內存效率。對於長歌曲,我們表現最佳的變體在F1分數上比ViT高8%,速度快38%,內存使用減少26%,同時在F1分數上比ConvNeXt高1%,速度快20%,內存減少67%。
📄 許可證
本項目採用MIT許可證。
📝 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}