sonics-spectttra-gamma-5s開源模型 - 檢測端到端AI生成歌曲，捕捉長時音頻特徵

首頁

Sonics Spectttra Gamma 5s

由awsaf49開發

用於檢測端到端AI生成歌曲的先進模型，特別擅長捕捉長時音頻特徵

音頻分類

PyTorch

英語開源協議:MIT #端到端假歌檢測 #長時音頻分析 #高效Transformer

下載量 119

發布時間 : 2/23/2025

模型概述

該模型專注於識別由AI生成的完整歌曲（包括人聲、伴奏、歌詞等），採用創新的SpecTTTra架構處理長時音頻依賴關係

模型特點

長時依賴建模

專門設計用於捕捉歌曲中長期時間模式，這是傳統方法忽視的關鍵維度

高效架構

SpecTTTra架構在內存和計算效率上顯著優於傳統CNN和Transformer模型

大規模數據集

基於超過97,000首歌曲(4,751小時)的訓練數據，其中包含49,000+首合成歌曲

多平臺覆蓋

支持檢測來自Suno、Udio等流行平臺的AI生成歌曲

模型能力

音頻分類

深度偽造檢測

音樂真實性驗證

長時音頻分析

使用案例

音樂版權保護

AI歌曲鑑別

識別音樂平臺上由AI生成的完整歌曲

F1分數達0.97（120秒音頻）

內容審核

音樂平臺審核

自動篩查用戶上傳的AI生成歌曲

特異度達0.99

🚀 SONICS：合成與否 - 識別假冒歌曲

SONICS是一個用於音頻分類的項目，旨在解決合成歌曲與真實歌曲的識別問題，保護音樂藝術的原創性和真實性。該項目提供了新的數據集和創新架構，在檢測性能和效率上有顯著提升。

🚀 快速開始

安裝

# 從GitHub安裝
!pip install git+https://github.com/awsaf49/sonics.git

# 加載模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")

✨ 主要特性

新數據集：引入SONICS數據集，用於端到端合成歌曲檢測（SSD），包含來自Suno和Udio等流行平臺的超49k首合成歌曲，共超97k首歌曲（4751小時）。
創新架構：提出SpecTTTra架構，相比傳統基於CNN和Transformer的模型，顯著提高了時間和內存效率。
性能優越：對於長歌曲，表現最佳的變體在F1分數上比ViT高8%，速度快38%，內存使用減少26%；比ConvNeXt的F1分數高1%，速度快20%，內存減少67%。

📦 安裝指南

# 從GitHub安裝
!pip install git+https://github.com/awsaf49/sonics.git

💻 使用示例

基礎用法

# 從GitHub安裝
!pip install git+https://github.com/awsaf49/sonics.git

# 加載模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")

📚 詳細文檔

🔗 相關鏈接

📄 論文
🎵 數據集
🔬 ArXiv
💻 GitHub

🏆 模型性能

模型名稱	HF鏈接	變體	時長	f_clip	t_clip	F1	靈敏度	特異性	速度 (A/S)	FLOPs (G)	內存 (GB)	# 激活 (M)	# 參數 (M)
`sonics-spectttra-alpha-5s`	HF	SpecTTTra-α	5s	1	3	0.78	0.69	0.94	148	2.9	0.5	6	17
`sonics-spectttra-beta-5s`	HF	SpecTTTra-β	5s	3	5	0.78	0.69	0.94	152	1.1	0.2	5	17
`sonics-spectttra-gamma-5s`	HF	SpecTTTra-γ	5s	5	7	0.76	0.66	0.92	154	0.7	0.1	2	17
`sonics-spectttra-alpha-120s`	HF	SpecTTTra-α	120s	1	3	0.97	0.96	0.99	47	23.7	3.9	50	19
`sonics-spectttra-beta-120s`	HF	SpecTTTra-β	120s	3	5	0.92	0.86	0.99	80	14.0	2.3	29	21
`sonics-spectttra-gamma-120s`	HF	SpecTTTra-γ	120s	5	7	0.88	0.79	0.99	97	10.1	1.6	20	24

📐 模型架構

屬性	詳情
基礎模型	SpectTTTra（頻譜 - 時間令牌變換器）
嵌入維度	384
頭的數量	6
層數	12
MLP比率	2.67

🎶 音頻處理

屬性	詳情
採樣率	16kHz
FFT大小	2048
跳躍長度	512
梅爾帶	128
頻率範圍	20Hz - 8kHz
歸一化	均值 - 標準差歸一化

🔧 技術細節

近期，AI生成歌曲的激增帶來了令人興奮的可能性和挑戰。為了保護藝術完整性和人類音樂創作，需要具備區分人類創作歌曲和合成歌曲的能力。現有的假歌曲檢測研究和數據集僅專注於歌唱語音深度偽造檢測（SVDD），其中歌聲是AI生成的，但器樂音樂來自真實歌曲。然而，這些方法不足以檢測當代端到端人工合成歌曲，因為這些歌曲的所有組成部分（歌聲、音樂、歌詞和風格）都可能是AI生成的。此外，現有數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問的假歌曲。

為了解決這些差距，我們引入了SONICS，這是一個用於端到端合成歌曲檢測（SSD）的新數據集，包含來自Suno和Udio等流行平臺的超49k首合成歌曲，共超97k首歌曲（4751小時）。此外，我們強調了在歌曲中建模長距離時間依賴關係對於有效真實性檢測的重要性，而這一方面在現有方法中完全被忽視。為了利用長距離模式，我們引入了SpecTTTra，這是一種新的架構，與傳統的基於CNN和Transformer的模型相比，顯著提高了時間和內存效率。對於長歌曲，我們表現最佳的變體在F1分數上比ViT高8%，速度快38%，內存使用減少26%，同時在F1分數上比ConvNeXt高1%，速度快20%，內存減少67%。

📄 許可證

本項目採用MIT許可證。

📝 引用

@inproceedings{rahman2024sonics,
        title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
        author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
        booktitle={International Conference on Learning Representations (ICLR)},
        year={2025},
      }