🚀 SONICS: 合成曲か否か - 偽曲の識別
近年、AI生成曲の急増により、音楽分野に新たな可能性と課題が生まれています。SONICSは、この状況に対応し、人工的に生成された偽曲を識別することで、音楽の芸術性を守ることを目的としたプロジェクトです。本プロジェクトでは、新しいデータセットとアーキテクチャを導入し、偽曲検出の精度と効率を向上させます。
🚀 クイックスタート
SONICSを使用するには、まず必要なライブラリをインストールし、モデルをロードする必要があります。以下のコードを実行することで、簡単に始めることができます。
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")
✨ 主な機能
- 新しいデータセット: SONICSは、97,000曲以上(4,751時間)の曲から構成される新しいデータセットを提供します。このデータセットには、SunoやUdioなどの人気プラットフォームから収集された49,000曲以上の合成曲が含まれています。
- 新しいアーキテクチャ: SpecTTTraという新しいアーキテクチャを導入することで、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させました。
- 高性能: 長い曲に対して、最も性能の高いバリアントは、F1スコアでViTを8%上回り、38%高速で、26%少ないメモリを使用します。また、ConvNeXtを上回り、F1スコアが1%向上し、速度が20%向上し、メモリが67%削減されます。
📦 インストール
SONICSをインストールするには、以下のコマンドを実行します。
!pip install git+https://github.com/awsaf49/sonics.git
💻 使用例
基本的な使用法
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")
📚 ドキュメント
概要
近年、AI生成曲の急増により、人間が作曲した曲と合成曲を区別する能力が必要となっています。既存の研究やデータセットは、歌唱音声のディープフェイク検出(SVDD)に焦点を当てていますが、これらのアプローチは、すべての要素(ボーカル、音楽、歌詞、スタイル)がAIで生成される現代のエンドツーエンドの人工曲を検出するには不十分です。また、既存のデータセットには、音楽と歌詞の多様性、長時間の曲、オープンアクセスの偽曲が不足しています。
これらのギャップを埋めるために、SONICSという新しいデータセットを導入しました。また、長期的な時間依存性を利用するために、SpecTTTraという新しいアーキテクチャを提案しました。このアーキテクチャは、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させます。
リンク
モデル性能
モデル名 |
HFリンク |
バリアント |
時間 |
f_clip |
t_clip |
F1 |
感度 |
特異度 |
速度 (A/S) |
FLOPs (G) |
メモリ (GB) |
# Act. (M) |
# パラメータ (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
モデルアーキテクチャ
属性 |
詳情 |
ベースモデル |
SpectTTTra (Spectro-Temporal Tokens Transformer) |
埋め込み次元 |
384 |
ヘッド数 |
6 |
レイヤー数 |
12 |
MLP比率 |
2.67 |
音声処理
属性 |
詳情 |
サンプリングレート |
16kHz |
FFTサイズ |
2048 |
ホップ長 |
512 |
メルバンド |
128 |
周波数範囲 |
20Hz - 8kHz |
正規化 |
平均標準正規化 |
🔧 技術詳細
SONICSでは、SpecTTTraという新しいアーキテクチャを導入することで、長期的な時間依存性を利用し、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させました。このアーキテクチャは、音声信号のスペクトログラムをトークン化し、Transformerベースのモデルで処理することで、長い曲に対する性能を向上させます。
📄 ライセンス
このプロジェクトは、MITライセンスの下で公開されています。
📄 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}