Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
このモデルはAudio Spectrogram Transformer (AST)アーキテクチャに基づくオーディオ分類モデルで、Audiosetデータセットで事前学習された後、GTZAN音楽ジャンル分類データセットでファインチューニングされています。
音声分類
Transformers

A
wkCircle
8
0
Frugal Ai Space
wav2vec2アーキテクチャに基づくオーディオ分類モデルで、気候関連の音声分類タスクに適しています
音声分類
Transformers 英語

F
dannywillowliu
3
0
Felguk Suno Or People
Apache-2.0
このモデルは、オーディオクリップを'Suno'音楽または'People'音楽に分類するために使用されます。
音声分類
Transformers 複数言語対応

F
Felguk
58
1
Whisper Tiny Tel Tam Try1
Apache-2.0
openai/whisper-tinyを微調整した音声分類モデルで、音声コマンドデータセットで優れた性能を発揮
音声分類
Transformers

W
JasHugF
18
0
Ph Audio Classification V1
Apache-2.0
distilhubertを微調整したオーディオ分類モデルで、評価データセットで100%の精度を達成
音声分類
Transformers

P
herbiel
272
0
Seamless M4t V2 Large Speech Encoder
SeamlessM4Tv2-Largeから抽出された音声エンコーダモジュールで、クロスランゲージおよび多言語のシーケンスレベルのオーディオ分類タスクに優れています
音声分類
Transformers 複数言語対応

S
WueNLP
67
3
Music Classifier
Wav2Vec2ベースのオーディオ分類モデル、音楽ジャンル識別用
音声分類
Safetensors
M
gastonduault
478
2
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
このモデルはASTアーキテクチャに基づきGTZAN音楽分類データセットでファインチューニングされたオーディオ分類モデルで、精度は89%です
音声分類
Transformers

A
eonrad
1
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
このモデルはAudio Spectrogram Transformer (AST)をGTZAN音楽分類データセットでファインチューニングしたバージョンで、オーディオ分類タスクに使用され、精度は88%です。
音声分類
Transformers

A
abnerh
2
0
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
Wav2Vec2 Large XLSR-53モデルをファインチューニングした音声感情認識システムで、7つの一般的な感情を認識可能
音声分類
Transformers

S
firdhokk
66
0
Genrevim Music Detection DistilHuBERT
このモデルはDistilHuBERTをファインチューニングしたオーディオ分類モデルで、音楽と非音楽オーディオを区別するために特別に設計されています。
音声分類
Transformers

G
MarekCech
61
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
wav2vec2-baseモデルをオーディオフォルダデータセットでファインチューニングしたオーディオ分類モデルで、検証セットの精度は99.82%
音声分類
Transformers

W
motheecreator
54
3
Detect Language
Apache-2.0
Whisper Mediumモデルをファインチューニングした言語識別モデルで、FLEURSデータセット上の言語分類タスク専用
音声分類
Transformers

D
apparaomulpuriril
15
0
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、評価データセットで58.92%の精度を達成
音声分類
Transformers

M
Krithika-p
15
0
Vit Base Patch16 1024 128.audiomae As2m Ft As20k
視覚トランスフォーマー(ViT)ベースのオーディオ処理モデル、自己教師ありマスクオートエンコーダ(MAE)手法でAudioSet-2Mで事前学習し、AudioSet-20kでファインチューニング
音声分類
V
gaunernst
335
2
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
wav2vec2アーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽と音声の分類タスクに使用されます
音声分類
Transformers

W
0bi0n3
15
1
Musical Instrument Detection
Apache-2.0
wav2vec 2.0アーキテクチャに基づく音声認識ベースモデル、960時間の英語音声データで事前学習済み
音声分類
Transformers

M
dima806
2,109
7
Classical Composer Classification New
facebook/wav2vec2-base-960hを基にしたオーディオ分類モデルで、オーディオクリップが属するクラシック音楽の作曲家を識別可能
音声分類
Transformers

C
dima806
15
2
Distilhubert Finetuned Gtzan
Apache-2.0
このモデルはDistilHuBERTアーキテクチャを基にGTZAN音楽ジャンル分類データセットでファインチューニングされたオーディオ分類モデルで、精度は89%です。
音声分類
Transformers

D
sandychoii
15
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
これはAST(Audio Spectrogram Transformer)アーキテクチャに基づくオーディオ分類モデルで、GTZAN音楽ジャンル分類データセットでファインチューニングされています。
音声分類
Transformers

A
nomad-ai
15
0
Distilhubert Finetuned Gtzan
Apache-2.0
GTZAN音楽分類データセットでdistilhubertをファインチューニングしたオーディオ分類モデル、精度89%
音声分類
Transformers

D
VinayHajare
20
1
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
このモデルはfacebook/wav2vec2-baseをGTZANデータセットでファインチューニングしたオーディオ分類モデルで、主に音楽ジャンル分類タスクに使用されます。
音声分類
Transformers

W
wilson-wei
14
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、音楽と音声を区別するために使用されます
音声分類
Transformers

W
FerhatDk
20
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
ASTアーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽ジャンル分類タスクに使用されます
音声分類
Transformers

A
vineetsharma
14
0
Whisper Tiny Finetuned Gtzan
Apache-2.0
openai/whisper-tinyをGTZANデータセットでファインチューニングした音声分類モデル、精度91%達成
音声分類
Transformers

W
vineetsharma
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
このモデルはGTZAN音楽分類データセットで微調整されたDistilHuBERTベースのオーディオ分類モデルで、主に音楽ジャンル分類タスクに使用されます。
音声分類
Transformers

D
susnato
14
0
Ast Finetuned Audioset 10 10 0.4593
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)モデル、オーディオ分類タスク用
音声分類
Transformers

A
Xenova
82
0
Wav2musicgenre
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、音楽ジャンルを識別するために使用されます
音声分類
Transformers

W
ramonpzg
20
0
Voip Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声分類モデルで、オーディオフォルダデータセットの分類タスクに使用されます
音声分類
Transformers

V
james-xie-rng
18
0
Birds Model
マイクロソフトのWavLM-Largeモデルをファインチューニングした鳥類の音声識別モデル
音声分類
Transformers

B
saadashraf
26
0
Astie Finetuned On Shemo
Bsd-3-clause
このモデルはshEMOデータセットでASTモデルをファインチューニングしたバージョンで、主に音声感情認識タスクに使用されます。
音声分類
Transformers

A
minoosh
24
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Ie
Bsd-3-clause
このモデルはMIT/ast-finetuned-audioset-10-10-0.4593をベースにファインチューニングされたオーディオ分類モデルで、評価セットで60.76%の精度を達成しました。
音声分類
Transformers

A
minoosh
14
0
Audio Class Finetuned
Apache-2.0
このモデルはfacebook/wav2vec2-baseをsuperbデータセットでファインチューニングしたオーディオ分類モデルで、評価セットで0.6578の精度を達成しました。
音声分類
Transformers

A
Chemsseddine
20
0
0 9up Ast Ft
Bsd-3-clause
このモデルはMIT/ast-finetuned-speech-commands-v2をベースに数字音声コマンドデータセットでファインチューニングされたオーディオ分類モデルで、0-9の数字音声コマンド認識に主に使用されます
音声分類
Transformers

0
mazkooleg
19
0
Whisper Medium Fleurs Lang Id
Apache-2.0
OpenAI Whisper-mediumをファインチューニングした音声言語識別モデルで、FLEURSデータセットで88.05%の精度を達成
音声分類
Transformers

W
sanchit-gandhi
590.30k
14
Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR
Bsd-3-clause
ASTアーキテクチャに基づくオーディオ分類モデルで、AudioSetデータセットで事前学習後、ESC-50データセットで微調整
音声分類
Transformers

A
xpariz10
22
0
Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50
Bsd-3-clause
このモデルはASTアーキテクチャに基づきAudioSetデータセットで事前学習され、ESC-50データセットでファインチューニングされたオーディオ分類モデルで、評価セットで94.64%の精度を達成しました。
音声分類
Transformers

A
xpariz10
24
1
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。
音声分類
Transformers

A
MIT
194.20k
5
Ast Finetuned Audioset 16 16 0.442
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、視覚トランスフォーマーアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類
Transformers

A
MIT
35
1
Ast Finetuned Audioset 12 12 0.447
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)。ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、複数のオーディオ分類ベンチマークで優れた性能を発揮します。
音声分類
Transformers

A
MIT
25
0
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98