sonics-spectttra-alpha-120s开源模型 - 检测端到端合成歌曲，识别AI完整创作

首页

Sonics Spectttra Alpha 120s

由 awsaf49 开发

用于端到端合成歌曲检测的先进模型，能够识别AI生成的完整歌曲（包括人声、音乐、歌词和风格）

音频分类

PyTorch

英语开源协议:MIT #端到端假歌检测 #长时音频分析 #高效频谱建模

下载量 1,986

发布时间 : 2/23/2025

模型简介

该模型专注于检测由AI生成的完整歌曲，通过分析音频频谱特征和长期时序依赖关系来区分真实与合成音乐作品

模型特点

长时序列分析

专门设计用于处理长达120秒的音频序列，有效捕捉歌曲中的长期时序模式

高效架构

SpecTTTra架构在时间和内存效率上优于传统CNN和Transformer模型

全面检测能力

不仅能检测AI生成的人声，还能识别完全由AI生成的歌曲（包括伴奏、歌词等）

模型能力

音频分类

深度伪造检测

音乐真实性验证

长序列音频分析

使用案例

音乐版权保护

AI生成歌曲识别

识别由Suno、Udio等平台生成的完全AI制作的歌曲

在120秒音频上达到0.97 F1分数

内容审核

音乐平台内容筛查

帮助音乐流媒体平台检测和标记AI生成内容

96%敏感度和99%特异度

🚀 SONICS：合成与否 - 识别假冒歌曲

SONICS是一个用于端到端合成歌曲检测的新颖数据集，可帮助区分人类创作和合成歌曲，保护音乐艺术的完整性。同时，其引入的SpecTTTra架构在时间和内存效率上有显著提升。

🚀 快速开始

安装

# 从GitHub安装
!pip install git+https://github.com/awsaf49/sonics.git

# 加载模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-120s")

✨ 主要特性

新颖数据集：SONICS数据集包含超过97k首歌曲（4751小时），其中有超过49k首来自Suno和Udio等流行平台的合成歌曲，解决了现有数据集缺乏音乐歌词多样性、长时长歌曲和开放访问假歌曲的问题。
创新架构：引入SpecTTTra架构，相比传统基于CNN和Transformer的模型，显著提高了时间和内存效率。对于长歌曲，其表现最佳的变体在F1分数上比ViT高8%，速度快38%，内存使用减少26%，同时在F1分数上比ConvNeXt高1%，速度提升20%，内存减少67%。

📚 详细文档

摘要

最近，AI生成歌曲的激增带来了令人兴奋的可能性和挑战。这些创新需要具备区分人类创作和合成歌曲的能力，以维护艺术完整性并保护人类音乐创作。现有的假歌曲检测研究和数据集仅专注于歌声深度伪造检测（SVDD），即歌声是AI生成的，但器乐音乐来自真实歌曲。然而，这些方法不足以检测当代端到端人工歌曲，因为这些歌曲的所有组成部分（歌声、音乐、歌词和风格）都可能是AI生成的。此外，现有的数据集缺乏音乐歌词多样性、长时长歌曲和开放访问的假歌曲。为了解决这些差距，我们引入了SONICS，一个用于端到端合成歌曲检测（SSD）的新颖数据集，包含超过97k首歌曲（4751小时），其中有超过49k首来自Suno和Udio等流行平台的合成歌曲。此外，我们强调了在歌曲中建模长距离时间依赖关系对于有效真实性检测的重要性，而这一方面在现有方法中完全被忽视。为了利用长距离模式，我们引入了SpecTTTra，一种新颖的架构，与传统的基于CNN和Transformer的模型相比，显著提高了时间和内存效率。对于长歌曲，我们表现最佳的变体在F1分数上比ViT高8%，速度快38%，内存使用减少26%，同时在F1分数上比ConvNeXt高1%，速度提升20%，内存减少67%。

链接

模型性能

模型名称	HF链接	变体	时长	f_clip	t_clip	F1	灵敏度	特异性	速度 (A/S)	FLOPs (G)	内存 (GB)	# 激活 (M)	# 参数 (M)
`sonics-spectttra-alpha-5s`	HF	SpecTTTra-α	5s	1	3	0.78	0.69	0.94	148	2.9	0.5	6	17
`sonics-spectttra-beta-5s`	HF	SpecTTTra-β	5s	3	5	0.78	0.69	0.94	152	1.1	0.2	5	17
`sonics-spectttra-gamma-5s`	HF	SpecTTTra-γ	5s	5	7	0.76	0.66	0.92	154	0.7	0.1	2	17
`sonics-spectttra-alpha-120s`	HF	SpecTTTra-α	120s	1	3	0.97	0.96	0.99	47	23.7	3.9	50	19
`sonics-spectttra-beta-120s`	HF	SpecTTTra-β	120s	3	5	0.92	0.86	0.99	80	14.0	2.3	29	21
`sonics-spectttra-gamma-120s`	HF	SpecTTTra-γ	120s	5	7	0.88	0.79	0.99	97	10.1	1.6	20	24

模型架构

基础模型：SpectTTTra（频谱 - 时间令牌变压器）
嵌入维度：384
头数：6
层数：12
MLP比率：2.67

音频处理

采样率：16kHz
FFT大小：2048
跳跃长度：512
梅尔带：128
频率范围：20Hz - 8kHz
归一化：均值 - 标准差归一化

🔧 技术细节

SONICS数据集的构建旨在解决现有假歌曲检测方法和数据集的不足。通过引入SpecTTTra架构，利用长距离模式进行有效真实性检测。该架构在处理长歌曲时，在F1分数、速度和内存使用方面都有显著优势。

📄 许可证

本项目采用MIT许可证。

📝 引用

@inproceedings{rahman2024sonics,
        title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
        author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
        booktitle={International Conference on Learning Representations (ICLR)},
        year={2025},
      }