sonics-spectttra-gamma-5s开源模型 - 检测端到端AI生成歌曲，捕捉长时音频特征

首页

Sonics Spectttra Gamma 5s

由 awsaf49 开发

用于检测端到端AI生成歌曲的先进模型，特别擅长捕捉长时音频特征

音频分类

PyTorch

英语开源协议:MIT #端到端假歌检测 #长时音频分析 #高效Transformer

下载量 119

发布时间 : 2/23/2025

模型简介

该模型专注于识别由AI生成的完整歌曲（包括人声、伴奏、歌词等），采用创新的SpecTTTra架构处理长时音频依赖关系

模型特点

长时依赖建模

专门设计用于捕捉歌曲中长期时间模式，这是传统方法忽视的关键维度

高效架构

SpecTTTra架构在内存和计算效率上显著优于传统CNN和Transformer模型

大规模数据集

基于超过97,000首歌曲(4,751小时)的训练数据，其中包含49,000+首合成歌曲

多平台覆盖

支持检测来自Suno、Udio等流行平台的AI生成歌曲

模型能力

音频分类

深度伪造检测

音乐真实性验证

长时音频分析

使用案例

音乐版权保护

AI歌曲鉴别

识别音乐平台上由AI生成的完整歌曲

F1分数达0.97（120秒音频）

内容审核

音乐平台审核

自动筛查用户上传的AI生成歌曲

特异度达0.99

🚀 SONICS：合成与否 - 识别假冒歌曲

SONICS是一个用于音频分类的项目，旨在解决合成歌曲与真实歌曲的识别问题，保护音乐艺术的原创性和真实性。该项目提供了新的数据集和创新架构，在检测性能和效率上有显著提升。

🚀 快速开始

安装

# 从GitHub安装
!pip install git+https://github.com/awsaf49/sonics.git

# 加载模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")

✨ 主要特性

新数据集：引入SONICS数据集，用于端到端合成歌曲检测（SSD），包含来自Suno和Udio等流行平台的超49k首合成歌曲，共超97k首歌曲（4751小时）。
创新架构：提出SpecTTTra架构，相比传统基于CNN和Transformer的模型，显著提高了时间和内存效率。
性能优越：对于长歌曲，表现最佳的变体在F1分数上比ViT高8%，速度快38%，内存使用减少26%；比ConvNeXt的F1分数高1%，速度快20%，内存减少67%。

📦 安装指南

# 从GitHub安装
!pip install git+https://github.com/awsaf49/sonics.git

💻 使用示例

基础用法

# 从GitHub安装
!pip install git+https://github.com/awsaf49/sonics.git

# 加载模型
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")

📚 详细文档

🔗 相关链接

📄 论文
🎵 数据集
🔬 ArXiv
💻 GitHub

🏆 模型性能

模型名称	HF链接	变体	时长	f_clip	t_clip	F1	灵敏度	特异性	速度 (A/S)	FLOPs (G)	内存 (GB)	# 激活 (M)	# 参数 (M)
`sonics-spectttra-alpha-5s`	HF	SpecTTTra-α	5s	1	3	0.78	0.69	0.94	148	2.9	0.5	6	17
`sonics-spectttra-beta-5s`	HF	SpecTTTra-β	5s	3	5	0.78	0.69	0.94	152	1.1	0.2	5	17
`sonics-spectttra-gamma-5s`	HF	SpecTTTra-γ	5s	5	7	0.76	0.66	0.92	154	0.7	0.1	2	17
`sonics-spectttra-alpha-120s`	HF	SpecTTTra-α	120s	1	3	0.97	0.96	0.99	47	23.7	3.9	50	19
`sonics-spectttra-beta-120s`	HF	SpecTTTra-β	120s	3	5	0.92	0.86	0.99	80	14.0	2.3	29	21
`sonics-spectttra-gamma-120s`	HF	SpecTTTra-γ	120s	5	7	0.88	0.79	0.99	97	10.1	1.6	20	24

📐 模型架构

属性	详情
基础模型	SpectTTTra（频谱 - 时间令牌变换器）
嵌入维度	384
头的数量	6
层数	12
MLP比率	2.67

🎶 音频处理

属性	详情
采样率	16kHz
FFT大小	2048
跳跃长度	512
梅尔带	128
频率范围	20Hz - 8kHz
归一化	均值 - 标准差归一化

🔧 技术细节

近期，AI生成歌曲的激增带来了令人兴奋的可能性和挑战。为了保护艺术完整性和人类音乐创作，需要具备区分人类创作歌曲和合成歌曲的能力。现有的假歌曲检测研究和数据集仅专注于歌唱语音深度伪造检测（SVDD），其中歌声是AI生成的，但器乐音乐来自真实歌曲。然而，这些方法不足以检测当代端到端人工合成歌曲，因为这些歌曲的所有组成部分（歌声、音乐、歌词和风格）都可能是AI生成的。此外，现有数据集缺乏音乐歌词多样性、长时长歌曲和开放访问的假歌曲。

为了解决这些差距，我们引入了SONICS，这是一个用于端到端合成歌曲检测（SSD）的新数据集，包含来自Suno和Udio等流行平台的超49k首合成歌曲，共超97k首歌曲（4751小时）。此外，我们强调了在歌曲中建模长距离时间依赖关系对于有效真实性检测的重要性，而这一方面在现有方法中完全被忽视。为了利用长距离模式，我们引入了SpecTTTra，这是一种新的架构，与传统的基于CNN和Transformer的模型相比，显著提高了时间和内存效率。对于长歌曲，我们表现最佳的变体在F1分数上比ViT高8%，速度快38%，内存使用减少26%，同时在F1分数上比ConvNeXt高1%，速度快20%，内存减少67%。

📄 许可证

本项目采用MIT许可证。

📝 引用

@inproceedings{rahman2024sonics,
        title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
        author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
        booktitle={International Conference on Learning Representations (ICLR)},
        year={2025},
      }