sonics - spectttra - alpha - 5sオープンソースモデル - 検出エンドツーエンドのAI生成曲、長時間の偽造音声の識別

ホーム

Sonics Spectttra Alpha 5s

awsaf49によって開発

エンドツーエンドAI生成曲を検出する先進モデルで、長時間の偽造オーディオ特徴の識別に特に優れています

音声分類

PyTorch

英語オープンソースライセンス:MIT #エンドツーエンド偽歌検出 #長時間オーディオ分析 #高効率スペクトルトランスフォーマー

ダウンロード数 36

リリース時間 : 2/23/2025

モデル概要

SONICSは合成曲検出（SSD）に特化したオーディオ分類モデルで、AIによって生成された完全な楽曲（ボーカル、伴奏、歌詞などの全要素を含む）を識別できます。従来のボーカル偽造検出のみの方法と比べ、このモデルは革新的なSpecTTTraアーキテクチャにより長時間オーディオ特徴を効果的に捕捉します。

モデル特徴

エンドツーエンド検出能力

AIによって完全に生成された楽曲（ボーカル、伴奏、歌詞などの全要素を含む）を検出可能で、ボーカル偽造検出に限定されません

長時間特徴モデリング

革新的なSpecTTTraアーキテクチャは、楽曲中の長時間の時間依存関係を捕捉するために特別に設計されています

高効率性能

従来のViTやCNNモデルと比べ、高い精度を維持しながら速度とメモリ効率を大幅に向上させています

大規模データセット

97,000曲以上（4,751時間）のトレーニングデータに基づいており、Suno/Udioからの49,000曲以上の合成曲を含みます

モデル能力

オーディオ分類

ディープフェイク検出

音楽真正性検証

長時間オーディオ分析

使用事例

音楽著作権保護

AI生成曲識別

ストリーミングプラットフォーム上のAI生成曲を識別し、オリジナル音楽制作者の権利を保護

120秒バージョンF1スコア0.97

コンテンツモデレーション

音楽プラットフォームコンテンツスクリーニング

ユーザーがアップロードしたAI生成曲を自動検出してマーキング

特異度0.99（極めて低い誤検出率）

🚀 SONICS: 合成曲か否か - 偽曲の識別

近年、AI生成曲の急増により、音楽分野に新たな可能性と課題が生まれています。SONICSは、この状況に対応し、人工的に生成された偽曲を識別することで、音楽の芸術性を守ることを目的としたプロジェクトです。本プロジェクトでは、新しいデータセットとアーキテクチャを導入し、偽曲検出の精度と効率を向上させます。

🚀 クイックスタート

SONICSを使用するには、まず必要なライブラリをインストールし、モデルをロードする必要があります。以下のコードを実行することで、簡単に始めることができます。

# GitHubからインストール
!pip install git+https://github.com/awsaf49/sonics.git

# モデルをロード
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")

✨ 主な機能

新しいデータセット: SONICSは、97,000曲以上（4,751時間）の曲から構成される新しいデータセットを提供します。このデータセットには、SunoやUdioなどの人気プラットフォームから収集された49,000曲以上の合成曲が含まれています。
新しいアーキテクチャ: SpecTTTraという新しいアーキテクチャを導入することで、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させました。
高性能: 長い曲に対して、最も性能の高いバリアントは、F1スコアでViTを8％上回り、38％高速で、26％少ないメモリを使用します。また、ConvNeXtを上回り、F1スコアが1％向上し、速度が20％向上し、メモリが67％削減されます。

📦 インストール

SONICSをインストールするには、以下のコマンドを実行します。

!pip install git+https://github.com/awsaf49/sonics.git

💻 使用例

基本的な使用法

# GitHubからインストール
!pip install git+https://github.com/awsaf49/sonics.git

# モデルをロード
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")

📚 ドキュメント

概要

近年、AI生成曲の急増により、人間が作曲した曲と合成曲を区別する能力が必要となっています。既存の研究やデータセットは、歌唱音声のディープフェイク検出（SVDD）に焦点を当てていますが、これらのアプローチは、すべての要素（ボーカル、音楽、歌詞、スタイル）がAIで生成される現代のエンドツーエンドの人工曲を検出するには不十分です。また、既存のデータセットには、音楽と歌詞の多様性、長時間の曲、オープンアクセスの偽曲が不足しています。

これらのギャップを埋めるために、SONICSという新しいデータセットを導入しました。また、長期的な時間依存性を利用するために、SpecTTTraという新しいアーキテクチャを提案しました。このアーキテクチャは、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させます。

リンク

モデル性能

モデル名	HFリンク	バリアント	時間	f_clip	t_clip	F1	感度	特異度	速度 (A/S)	FLOPs (G)	メモリ (GB)	# Act. (M)	# パラメータ (M)
`sonics-spectttra-alpha-5s`	HF	SpecTTTra-α	5s	1	3	0.78	0.69	0.94	148	2.9	0.5	6	17
`sonics-spectttra-beta-5s`	HF	SpecTTTra-β	5s	3	5	0.78	0.69	0.94	152	1.1	0.2	5	17
`sonics-spectttra-gamma-5s`	HF	SpecTTTra-γ	5s	5	7	0.76	0.66	0.92	154	0.7	0.1	2	17
`sonics-spectttra-alpha-120s`	HF	SpecTTTra-α	120s	1	3	0.97	0.96	0.99	47	23.7	3.9	50	19
`sonics-spectttra-beta-120s`	HF	SpecTTTra-β	120s	3	5	0.92	0.86	0.99	80	14.0	2.3	29	21
`sonics-spectttra-gamma-120s`	HF	SpecTTTra-γ	120s	5	7	0.88	0.79	0.99	97	10.1	1.6	20	24

モデルアーキテクチャ

属性	詳情
ベースモデル	SpectTTTra (Spectro-Temporal Tokens Transformer)
埋め込み次元	384
ヘッド数	6
レイヤー数	12
MLP比率	2.67

音声処理

属性	詳情
サンプリングレート	16kHz
FFTサイズ	2048
ホップ長	512
メルバンド	128
周波数範囲	20Hz - 8kHz
正規化	平均標準正規化

🔧 技術詳細

SONICSでは、SpecTTTraという新しいアーキテクチャを導入することで、長期的な時間依存性を利用し、従来のCNNやTransformerベースのモデルに比べて時間とメモリの効率を大幅に向上させました。このアーキテクチャは、音声信号のスペクトログラムをトークン化し、Transformerベースのモデルで処理することで、長い曲に対する性能を向上させます。

📄 ライセンス

このプロジェクトは、MITライセンスの下で公開されています。

📄 引用

@inproceedings{rahman2024sonics,
        title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
        author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
        booktitle={International Conference on Learning Representations (ICLR)},
        year={2025},
      }