sonics-spectttra-alpha-120s開源模型 - 檢測端到端合成歌曲，識別AI完整創作

首頁

Sonics Spectttra Alpha 120s

由awsaf49開發

用於端到端合成歌曲檢測的先進模型，能夠識別AI生成的完整歌曲（包括人聲、音樂、歌詞和風格）

音頻分類

PyTorch

英語開源協議:MIT #端到端假歌檢測 #長時音頻分析 #高效頻譜建模

下載量 1,986

發布時間 : 2/23/2025

模型概述

該模型專注於檢測由AI生成的完整歌曲，通過分析音頻頻譜特徵和長期時序依賴關係來區分真實與合成音樂作品

模型特點

長時序列分析

專門設計用於處理長達120秒的音頻序列，有效捕捉歌曲中的長期時序模式

高效架構

SpecTTTra架構在時間和內存效率上優於傳統CNN和Transformer模型

全面檢測能力

不僅能檢測AI生成的人聲，還能識別完全由AI生成的歌曲（包括伴奏、歌詞等）

模型能力

音頻分類

深度偽造檢測

音樂真實性驗證

長序列音頻分析

使用案例

音樂版權保護

AI生成歌曲識別

識別由Suno、Udio等平臺生成的完全AI製作的歌曲

在120秒音頻上達到0.97 F1分數

內容審核

音樂平臺內容篩查

幫助音樂流媒體平臺檢測和標記AI生成內容

96%敏感度和99%特異度

🚀 SONICS：合成與否 - 識別假冒歌曲

SONICS是一個用於端到端合成歌曲檢測的新穎數據集，可幫助區分人類創作和合成歌曲，保護音樂藝術的完整性。同時，其引入的SpecTTTra架構在時間和內存效率上有顯著提升。

🚀 快速開始

安裝

# 從GitHub安裝
!pip install git+https://github.com/awsaf49/sonics.git

# 加載模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-120s")

✨ 主要特性

新穎數據集：SONICS數據集包含超過97k首歌曲（4751小時），其中有超過49k首來自Suno和Udio等流行平臺的合成歌曲，解決了現有數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問假歌曲的問題。
創新架構：引入SpecTTTra架構，相比傳統基於CNN和Transformer的模型，顯著提高了時間和內存效率。對於長歌曲，其表現最佳的變體在F1分數上比ViT高8%，速度快38%，內存使用減少26%，同時在F1分數上比ConvNeXt高1%，速度提升20%，內存減少67%。

📚 詳細文檔

摘要

最近，AI生成歌曲的激增帶來了令人興奮的可能性和挑戰。這些創新需要具備區分人類創作和合成歌曲的能力，以維護藝術完整性並保護人類音樂創作。現有的假歌曲檢測研究和數據集僅專注於歌聲深度偽造檢測（SVDD），即歌聲是AI生成的，但器樂音樂來自真實歌曲。然而，這些方法不足以檢測當代端到端人工歌曲，因為這些歌曲的所有組成部分（歌聲、音樂、歌詞和風格）都可能是AI生成的。此外，現有的數據集缺乏音樂歌詞多樣性、長時長歌曲和開放訪問的假歌曲。為了解決這些差距，我們引入了SONICS，一個用於端到端合成歌曲檢測（SSD）的新穎數據集，包含超過97k首歌曲（4751小時），其中有超過49k首來自Suno和Udio等流行平臺的合成歌曲。此外，我們強調了在歌曲中建模長距離時間依賴關係對於有效真實性檢測的重要性，而這一方面在現有方法中完全被忽視。為了利用長距離模式，我們引入了SpecTTTra，一種新穎的架構，與傳統的基於CNN和Transformer的模型相比，顯著提高了時間和內存效率。對於長歌曲，我們表現最佳的變體在F1分數上比ViT高8%，速度快38%，內存使用減少26%，同時在F1分數上比ConvNeXt高1%，速度提升20%，內存減少67%。

鏈接

模型性能

模型名稱	HF鏈接	變體	時長	f_clip	t_clip	F1	靈敏度	特異性	速度 (A/S)	FLOPs (G)	內存 (GB)	# 激活 (M)	# 參數 (M)
`sonics-spectttra-alpha-5s`	HF	SpecTTTra-α	5s	1	3	0.78	0.69	0.94	148	2.9	0.5	6	17
`sonics-spectttra-beta-5s`	HF	SpecTTTra-β	5s	3	5	0.78	0.69	0.94	152	1.1	0.2	5	17
`sonics-spectttra-gamma-5s`	HF	SpecTTTra-γ	5s	5	7	0.76	0.66	0.92	154	0.7	0.1	2	17
`sonics-spectttra-alpha-120s`	HF	SpecTTTra-α	120s	1	3	0.97	0.96	0.99	47	23.7	3.9	50	19
`sonics-spectttra-beta-120s`	HF	SpecTTTra-β	120s	3	5	0.92	0.86	0.99	80	14.0	2.3	29	21
`sonics-spectttra-gamma-120s`	HF	SpecTTTra-γ	120s	5	7	0.88	0.79	0.99	97	10.1	1.6	20	24

模型架構

基礎模型：SpectTTTra（頻譜 - 時間令牌變壓器）
嵌入維度：384
頭數：6
層數：12
MLP比率：2.67

音頻處理

採樣率：16kHz
FFT大小：2048
跳躍長度：512
梅爾帶：128
頻率範圍：20Hz - 8kHz
歸一化：均值 - 標準差歸一化

🔧 技術細節

SONICS數據集的構建旨在解決現有假歌曲檢測方法和數據集的不足。通過引入SpecTTTra架構，利用長距離模式進行有效真實性檢測。該架構在處理長歌曲時，在F1分數、速度和內存使用方面都有顯著優勢。

📄 許可證

本項目採用MIT許可證。

📝 引用

@inproceedings{rahman2024sonics,
        title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
        author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
        booktitle={International Conference on Learning Representations (ICLR)},
        year={2025},
      }