Music Classifier
Wav2Vec2ベースのオーディオ分類モデル、音楽ジャンル識別用
ダウンロード数 478
リリース時間 : 11/17/2024
モデル概要
このモデルはオーディオ信号の分析により、10種類の異なる音楽ジャンルを正確に識別でき、音楽分類、推薦システムなどのシナリオに適用可能です。
モデル特徴
高精度分類
検証セットで75%の精度を達成、10種類の音楽ジャンルを効果的に区別可能
Wav2Vec2ベース
Wav2Vec2の強力なオーディオ特徴抽出能力を活用、複雑な特徴工学不要
エンドツーエンド処理
生のオーディオ波形から直接分類、処理フローを簡素化
モデル能力
オーディオ分類
音楽ジャンル認識
オーディオ特徴抽出
使用事例
音楽推薦システム
自動音楽分類
音楽ライブラリの楽曲に自動的にジャンルタグを追加
音楽分類効率向上、手動ラベリングコスト削減
音楽分析
音楽スタイルトレンド分析
大量の音楽作品のジャンル分布を分析
音楽市場トレンド理解の支援
## 🚀 音楽ジャンル分類モデル 🎶
このモデルは、音声信号(.wav)に基づいて音楽のジャンルを分類します。
**[Wav2Vec2](https://huggingface.co/facebook/wav2vec2-large)** モデルをファインチューニングし、**[music_genres_small](https://huggingface.co/datasets/lewtun/music_genres_small)** データセットを使用して構築されています。
Flask APIによってホストされるインターフェイスを備えた **GitHub** リポジトリを通じて、このモデルをテストすることができます。**[music-classifier repository](https://github.com/gastonduault/Music-Classifier)**
## 🚀 クイックスタート
この音楽ジャンル分類モデルは、音声信号に基づいて音楽のジャンルを分類することができます。以下に、使用方法を説明します。
## ✨ 主な機能
- 音声信号(.wav)に基づいて音楽のジャンルを分類します。
- **Wav2Vec2** モデルをファインチューニングして構築されています。
- 特定のデータセットを使用して訓練されています。
## 📚 ドキュメント
### メトリクス
- **検証精度**: 75%
- **F1スコア**: 74%
- **検証損失**: 0.77
### データセットとベースモデル
| プロパティ | 詳細 |
|----------|---------|
| データセット | lewtun/music_genres_small |
| ベースモデル | facebook/wav2vec2-large |
### タグ
- オーディオ
- 音楽
- 分類
- Wav2Vec2
### パイプラインタグ
オーディオ分類
## 💻 使用例
### 基本的な使用法
```python
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor
import librosa
import torch
# Genre mapping corrected to a dictionary
genre_mapping = {
0: "Electronic",
1: "Rock",
2: "Punk",
3: "Experimental",
4: "Hip-Hop",
5: "Folk",
6: "Chiptune / Glitch",
7: "Instrumental",
8: "Pop",
9: "International",
}
model = Wav2Vec2ForSequenceClassification.from_pretrained("gastonduault/music-classifier")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("facebook/wav2vec2-large")
# Function for preprocessing audio for prediction
def preprocess_audio(audio_path):
audio_array, sampling_rate = librosa.load(audio_path, sr=16000)
return feature_extractor(audio_array, sampling_rate=16000, return_tensors="pt", padding=True)
# Path to your audio file
audio_path = "./Nirvana - Come As You Are.wav"
# Preprocess audio
inputs = preprocess_audio(audio_path)
# Predict
with torch.no_grad():
logits = model(**inputs).logits
predicted_class = torch.argmax(logits, dim=-1).item()
# Output the result
print(f"song analized:{audio_path}")
print(f"Predicted genre: {genre_mapping[predicted_class]}")
Mms Lid 126
Facebookの大規模多言語音声プロジェクトを基にファインチューニングした言語識別モデルで、126言語の音声分類をサポート
音声分類
Transformers 複数言語対応

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
このモデルはfacebook/wav2vec2-baseをspeech_commandsデータセットでファインチューニングした音声コマンド認識モデルで、精度は97.59%です。
音声分類
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
OpenAI Whisper-mediumをファインチューニングした音声言語識別モデルで、FLEURSデータセットで88.05%の精度を達成
音声分類
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
このモデルはWav2Vec2-Large-Robustをファインチューニングして訓練され、音声感情認識に使用され、覚醒度、支配度、価値の3つの次元の予測値を出力します。
音声分類
Transformers 英語

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
SpeechBrainフレームワークとECAPA-TDNNアーキテクチャに基づく音声言語識別モデルで、107言語の識別と音声埋め込みベクトル抽出をサポートします。
音声分類
PyTorch 複数言語対応
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
オーディオスペクトログラムトランスフォーマー(AST)はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。
音声分類
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
openai/whisper-smallをファインチューニングした汎用言語識別モデルで、評価データセットでの精度は88.6%
音声分類
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
ファインチューニングされたwav2vec2モデルを使用した音声感情認識で、IEMOCAPデータセットでトレーニング
音声分類
PyTorch 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。
音声分類
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
Librispeech-clean-100データセットで微調整された性別認識モデルで、テストセットでF1スコア0.9993を達成
音声分類
Transformers

W
alefiury
182.33k
42
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98