🚀 SONICS:合成与否 - 识别假冒歌曲
SONICS是一个用于端到端合成歌曲检测的新颖数据集,可帮助区分人类创作和合成歌曲,保护音乐艺术的完整性。同时,其引入的SpecTTTra架构在时间和内存效率上有显著提升。
🚀 快速开始
安装
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-120s")
✨ 主要特性
- 新颖数据集:SONICS数据集包含超过97k首歌曲(4751小时),其中有超过49k首来自Suno和Udio等流行平台的合成歌曲,解决了现有数据集缺乏音乐歌词多样性、长时长歌曲和开放访问假歌曲的问题。
- 创新架构:引入SpecTTTra架构,相比传统基于CNN和Transformer的模型,显著提高了时间和内存效率。对于长歌曲,其表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%,同时在F1分数上比ConvNeXt高1%,速度提升20%,内存减少67%。
📚 详细文档
摘要
最近,AI生成歌曲的激增带来了令人兴奋的可能性和挑战。这些创新需要具备区分人类创作和合成歌曲的能力,以维护艺术完整性并保护人类音乐创作。现有的假歌曲检测研究和数据集仅专注于歌声深度伪造检测(SVDD),即歌声是AI生成的,但器乐音乐来自真实歌曲。然而,这些方法不足以检测当代端到端人工歌曲,因为这些歌曲的所有组成部分(歌声、音乐、歌词和风格)都可能是AI生成的。此外,现有的数据集缺乏音乐歌词多样性、长时长歌曲和开放访问的假歌曲。为了解决这些差距,我们引入了SONICS,一个用于端到端合成歌曲检测(SSD)的新颖数据集,包含超过97k首歌曲(4751小时),其中有超过49k首来自Suno和Udio等流行平台的合成歌曲。此外,我们强调了在歌曲中建模长距离时间依赖关系对于有效真实性检测的重要性,而这一方面在现有方法中完全被忽视。为了利用长距离模式,我们引入了SpecTTTra,一种新颖的架构,与传统的基于CNN和Transformer的模型相比,显著提高了时间和内存效率。对于长歌曲,我们表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%,同时在F1分数上比ConvNeXt高1%,速度提升20%,内存减少67%。
链接
模型性能
模型名称 |
HF链接 |
变体 |
时长 |
f_clip |
t_clip |
F1 |
灵敏度 |
特异性 |
速度 (A/S) |
FLOPs (G) |
内存 (GB) |
# 激活 (M) |
# 参数 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
模型架构
- 基础模型:SpectTTTra(频谱 - 时间令牌变压器)
- 嵌入维度:384
- 头数:6
- 层数:12
- MLP比率:2.67
音频处理
- 采样率:16kHz
- FFT大小:2048
- 跳跃长度:512
- 梅尔带:128
- 频率范围:20Hz - 8kHz
- 归一化:均值 - 标准差归一化
🔧 技术细节
SONICS数据集的构建旨在解决现有假歌曲检测方法和数据集的不足。通过引入SpecTTTra架构,利用长距离模式进行有效真实性检测。该架构在处理长歌曲时,在F1分数、速度和内存使用方面都有显著优势。
📄 许可证
本项目采用MIT许可证。
📝 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}