🚀 SONICS:合成与否 - 识别假冒歌曲
SONICS是一个用于音频分类的项目,旨在解决合成歌曲与真实歌曲的识别问题,保护音乐艺术的原创性和真实性。该项目提供了新的数据集和创新架构,在检测性能和效率上有显著提升。
🚀 快速开始
安装
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")
✨ 主要特性
- 新数据集:引入SONICS数据集,用于端到端合成歌曲检测(SSD),包含来自Suno和Udio等流行平台的超49k首合成歌曲,共超97k首歌曲(4751小时)。
- 创新架构:提出SpecTTTra架构,相比传统基于CNN和Transformer的模型,显著提高了时间和内存效率。
- 性能优越:对于长歌曲,表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%;比ConvNeXt的F1分数高1%,速度快20%,内存减少67%。
📦 安装指南
!pip install git+https://github.com/awsaf49/sonics.git
💻 使用示例
基础用法
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")
📚 详细文档
🔗 相关链接
🏆 模型性能
模型名称 |
HF链接 |
变体 |
时长 |
f_clip |
t_clip |
F1 |
灵敏度 |
特异性 |
速度 (A/S) |
FLOPs (G) |
内存 (GB) |
# 激活 (M) |
# 参数 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
📐 模型架构
属性 |
详情 |
基础模型 |
SpectTTTra(频谱 - 时间令牌变换器) |
嵌入维度 |
384 |
头的数量 |
6 |
层数 |
12 |
MLP比率 |
2.67 |
🎶 音频处理
属性 |
详情 |
采样率 |
16kHz |
FFT大小 |
2048 |
跳跃长度 |
512 |
梅尔带 |
128 |
频率范围 |
20Hz - 8kHz |
归一化 |
均值 - 标准差归一化 |
🔧 技术细节
近期,AI生成歌曲的激增带来了令人兴奋的可能性和挑战。为了保护艺术完整性和人类音乐创作,需要具备区分人类创作歌曲和合成歌曲的能力。现有的假歌曲检测研究和数据集仅专注于歌唱语音深度伪造检测(SVDD),其中歌声是AI生成的,但器乐音乐来自真实歌曲。然而,这些方法不足以检测当代端到端人工合成歌曲,因为这些歌曲的所有组成部分(歌声、音乐、歌词和风格)都可能是AI生成的。此外,现有数据集缺乏音乐歌词多样性、长时长歌曲和开放访问的假歌曲。
为了解决这些差距,我们引入了SONICS,这是一个用于端到端合成歌曲检测(SSD)的新数据集,包含来自Suno和Udio等流行平台的超49k首合成歌曲,共超97k首歌曲(4751小时)。此外,我们强调了在歌曲中建模长距离时间依赖关系对于有效真实性检测的重要性,而这一方面在现有方法中完全被忽视。为了利用长距离模式,我们引入了SpecTTTra,这是一种新的架构,与传统的基于CNN和Transformer的模型相比,显著提高了时间和内存效率。对于长歌曲,我们表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%,同时在F1分数上比ConvNeXt高1%,速度快20%,内存减少67%。
📄 许可证
本项目采用MIT许可证。
📝 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}