# 音頻分類

Ast Finetuned Audioset 10 10 0.4593 ONNX
這是AST(Audio Spectrogram Transformer)模型的ONNX版本,專為音頻分類任務設計,在AudioSet數據集上進行了微調。
音頻分類 Transformers
A
onnx-community
684
1
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於Audio Spectrogram Transformer (AST)架構的音頻分類模型,在Audioset數據集上預訓練後,又在GTZAN音樂流派分類數據集上進行了微調。
音頻分類 Transformers
A
wkCircle
8
0
Frugal Ai Space
基於wav2vec2架構的音頻分類模型,適用於氣候相關的聲音分類任務
音頻分類 Transformers 英語
F
dannywillowliu
3
0
Felguk Suno Or People
Apache-2.0
該模型用於將音頻片段分類為'Suno'音樂或'People'音樂。
音頻分類 Transformers 支持多種語言
F
Felguk
58
1
Whisper Tiny Tel Tam Try1
Apache-2.0
基於openai/whisper-tiny微調的語音分類模型,在語音命令數據集上表現優異
音頻分類 Transformers
W
JasHugF
18
0
Ph Audio Classification V1
Apache-2.0
基於distilhubert微調的音頻分類模型,在評估集上達到100%準確率
音頻分類 Transformers
P
herbiel
272
0
Seamless M4t V2 Large Speech Encoder
從SeamlessM4Tv2-Large中提取的語音編碼器模塊,擅長跨語言和多語言的序列級音頻分類任務
音頻分類 Transformers 支持多種語言
S
WueNLP
67
3
Music Classifier
基於Wav2Vec2的音頻分類模型,用於識別音樂流派
音頻分類 Safetensors
M
gastonduault
478
2
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於AST架構在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達89%
音頻分類 Transformers
A
eonrad
1
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於 Audio Spectrogram Transformer (AST) 在 GTZAN 音樂分類數據集上微調的版本,用於音頻分類任務,準確率達到 88%。
音頻分類 Transformers
A
abnerh
2
0
Vietnamese Regional Accent Classification Model
這是一個用於分類越南語方言的音頻分類模型,在評估集上F1分數達到0.8217。
音頻分類 Transformers
V
thangtrungnguyen
36
0
Baby Cry Classification Finetuned Babycry V4
Apache-2.0
基於wav2vec2-large-xlsr-53-english微調的嬰兒哭聲分類模型,準確率達81.5%
音頻分類 Transformers
B
Wiam
120
2
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
基於Wav2Vec2 Large XLSR-53模型微調的語音情感識別系統,能夠識別7種常見情感
音頻分類 Transformers
S
firdhokk
66
0
AST ASVspoof5 Synthetic Voice Detection
Bsd-3-clause
基於MIT/ast-finetuned-audioset-10-10-0.4593微調的合成語音檢測模型,用於識別音頻是否為合成語音。
音頻分類 Transformers
A
MattyB95
281
0
Genrevim Music Detection DistilHuBERT
該模型是基於DistilHuBERT微調的音頻分類模型,專門用於區分音樂與非音樂音頻。
音頻分類 Transformers
G
MarekCech
61
0
Testv4
基於wav2vec預訓練模型在superb數據集上微調的5分類音頻分類模型
音頻分類 Transformers
T
anderloh
27
0
Wav2vec Base Crema Sentiment Analysis
Apache-2.0
基於facebook/wav2vec2-base微調的語音情感分析模型,在評估集上達到70.87%的準確率
音頻分類 Transformers
W
Piyush2512
38
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
基於wav2vec2-base模型在音頻文件夾數據集上微調的音頻分類模型,驗證集準確率達99.82%
音頻分類 Transformers
W
motheecreator
54
3
Violence Detect 44
Apache-2.0
基於facebook/wav2vec2-base-960h微調的音頻分類模型,用於檢測暴力聲音
音頻分類 Transformers
V
Hemg
28
0
Detect Language
Apache-2.0
基於Whisper Medium模型微調的語言識別模型,專門用於FLEURS數據集上的語言分類任務
音頻分類 Transformers
D
apparaomulpuriril
15
0
My Awesome Mind Model
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,在評估集上達到58.92%的準確率
音頻分類 Transformers
M
Krithika-p
15
0
Vit Base Patch16 1024 128.audiomae As2m Ft As20k
基於視覺變換器(ViT)的音頻處理模型,通過自監督掩碼自編碼器(MAE)方法在AudioSet-2M上預訓練並在AudioSet-20k上微調
音頻分類
V
gaunernst
335
2
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
基於wav2vec2架構的音頻分類模型,在GTZAN數據集上微調,用於音樂和語音分類任務
音頻分類 Transformers
W
0bi0n3
15
1
Cat Dog Sounds Classification
Apache-2.0
基於wav2vec 2.0架構的語音識別基礎模型,在960小時的英語語音數據上預訓練
音頻分類 Transformers
C
dima806
25
4
Musical Instrument Detection
Apache-2.0
基於wav2vec 2.0架構的語音識別基礎模型,在960小時英語語音數據上預訓練
音頻分類 Transformers
M
dima806
2,109
7
Classical Composer Classification New
基於facebook/wav2vec2-base-960h的音頻分類模型,可識別音頻片段所屬的古典音樂作曲家
音頻分類 Transformers
C
dima806
15
2
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT架構在GTZAN音樂流派分類數據集上微調的音頻分類模型,準確率達89%。
音頻分類 Transformers
D
sandychoii
15
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
這是一個基於AST(Audio Spectrogram Transformer)架構的音頻分類模型,在GTZAN音樂流派分類數據集上進行了微調。
音頻分類 Transformers
A
nomad-ai
15
0
Mert Base
MERT是一種基於自監督學習的聲學音樂理解模型,通過教師模型提供偽標籤進行預訓練。
音頻分類 Transformers
M
yangwang825
26
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於distilhubert在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達89%
音頻分類 Transformers
D
VinayHajare
20
1
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
該模型是基於facebook/wav2vec2-base在GTZAN數據集上微調的音頻分類模型,主要用於音樂流派分類任務。
音頻分類 Transformers
W
wilson-wei
14
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,用於區分音樂和語音
音頻分類 Transformers
W
FerhatDk
20
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
基於AST架構的音頻分類模型,在GTZAN數據集上微調,用於音樂流派分類任務
音頻分類 Transformers
A
vineetsharma
14
0
Whisper Tiny Finetuned Gtzan
Apache-2.0
基於openai/whisper-tiny在GTZAN數據集上微調的語音分類模型,準確率達91%
音頻分類 Transformers
W
vineetsharma
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,主要用於音樂流派分類任務。
音頻分類 Transformers
D
susnato
14
0
Ast Finetuned Audioset 10 10 0.4593
基於AudioSet數據集微調的音頻譜圖變換器(AST)模型,用於音頻分類任務
音頻分類 Transformers
A
Xenova
82
0
Wav2musicgenre
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,用於識別音樂流派
音頻分類 Transformers
W
ramonpzg
20
0
Voip Classification
Apache-2.0
基於facebook/wav2vec2-base微調的語音分類模型,用於音頻文件夾數據集的分類任務
音頻分類 Transformers
V
james-xie-rng
18
0
Doa Model TL4
Openrail
該模型用於估計固定聲源的到達方向(DOA),基於SOFA數據集訓練,通過AST模型微調實現。
音頻分類 Transformers 英語
D
FidelOdok
15
0
Neunit Ks Kangyuan0601
Apache-2.0
該模型是基於facebook/wav2vec2-base在superb數據集上微調的音頻分類模型,在評估集上取得了99.87%的準確率。
音頻分類 Transformers
N
SHENMU007
16
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase