Ast Finetuned Audioset 10 10 0.4593 ONNX
這是AST(Audio Spectrogram Transformer)模型的ONNX版本,專為音頻分類任務設計,在AudioSet數據集上進行了微調。
音頻分類
Transformers

A
onnx-community
684
1
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於Audio Spectrogram Transformer (AST)架構的音頻分類模型,在Audioset數據集上預訓練後,又在GTZAN音樂流派分類數據集上進行了微調。
音頻分類
Transformers

A
wkCircle
8
0
Frugal Ai Space
基於wav2vec2架構的音頻分類模型,適用於氣候相關的聲音分類任務
音頻分類
Transformers 英語

F
dannywillowliu
3
0
Felguk Suno Or People
Apache-2.0
該模型用於將音頻片段分類為'Suno'音樂或'People'音樂。
音頻分類
Transformers 支持多種語言

F
Felguk
58
1
Whisper Tiny Tel Tam Try1
Apache-2.0
基於openai/whisper-tiny微調的語音分類模型,在語音命令數據集上表現優異
音頻分類
Transformers

W
JasHugF
18
0
Ph Audio Classification V1
Apache-2.0
基於distilhubert微調的音頻分類模型,在評估集上達到100%準確率
音頻分類
Transformers

P
herbiel
272
0
Seamless M4t V2 Large Speech Encoder
從SeamlessM4Tv2-Large中提取的語音編碼器模塊,擅長跨語言和多語言的序列級音頻分類任務
音頻分類
Transformers 支持多種語言

S
WueNLP
67
3
Music Classifier
基於Wav2Vec2的音頻分類模型,用於識別音樂流派
音頻分類
Safetensors
M
gastonduault
478
2
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於AST架構在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達89%
音頻分類
Transformers

A
eonrad
1
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
該模型是基於 Audio Spectrogram Transformer (AST) 在 GTZAN 音樂分類數據集上微調的版本,用於音頻分類任務,準確率達到 88%。
音頻分類
Transformers

A
abnerh
2
0
Vietnamese Regional Accent Classification Model
這是一個用於分類越南語方言的音頻分類模型,在評估集上F1分數達到0.8217。
音頻分類
Transformers

V
thangtrungnguyen
36
0
Baby Cry Classification Finetuned Babycry V4
Apache-2.0
基於wav2vec2-large-xlsr-53-english微調的嬰兒哭聲分類模型,準確率達81.5%
音頻分類
Transformers

B
Wiam
120
2
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
基於Wav2Vec2 Large XLSR-53模型微調的語音情感識別系統,能夠識別7種常見情感
音頻分類
Transformers

S
firdhokk
66
0
AST ASVspoof5 Synthetic Voice Detection
Bsd-3-clause
基於MIT/ast-finetuned-audioset-10-10-0.4593微調的合成語音檢測模型,用於識別音頻是否為合成語音。
音頻分類
Transformers

A
MattyB95
281
0
Genrevim Music Detection DistilHuBERT
該模型是基於DistilHuBERT微調的音頻分類模型,專門用於區分音樂與非音樂音頻。
音頻分類
Transformers

G
MarekCech
61
0
Testv4
基於wav2vec預訓練模型在superb數據集上微調的5分類音頻分類模型
音頻分類
Transformers

T
anderloh
27
0
Wav2vec Base Crema Sentiment Analysis
Apache-2.0
基於facebook/wav2vec2-base微調的語音情感分析模型,在評估集上達到70.87%的準確率
音頻分類
Transformers

W
Piyush2512
38
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
基於wav2vec2-base模型在音頻文件夾數據集上微調的音頻分類模型,驗證集準確率達99.82%
音頻分類
Transformers

W
motheecreator
54
3
Violence Detect 44
Apache-2.0
基於facebook/wav2vec2-base-960h微調的音頻分類模型,用於檢測暴力聲音
音頻分類
Transformers

V
Hemg
28
0
Detect Language
Apache-2.0
基於Whisper Medium模型微調的語言識別模型,專門用於FLEURS數據集上的語言分類任務
音頻分類
Transformers

D
apparaomulpuriril
15
0
My Awesome Mind Model
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,在評估集上達到58.92%的準確率
音頻分類
Transformers

M
Krithika-p
15
0
Vit Base Patch16 1024 128.audiomae As2m Ft As20k
基於視覺變換器(ViT)的音頻處理模型,通過自監督掩碼自編碼器(MAE)方法在AudioSet-2M上預訓練並在AudioSet-20k上微調
音頻分類
V
gaunernst
335
2
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
基於wav2vec2架構的音頻分類模型,在GTZAN數據集上微調,用於音樂和語音分類任務
音頻分類
Transformers

W
0bi0n3
15
1
Cat Dog Sounds Classification
Apache-2.0
基於wav2vec 2.0架構的語音識別基礎模型,在960小時的英語語音數據上預訓練
音頻分類
Transformers

C
dima806
25
4
Musical Instrument Detection
Apache-2.0
基於wav2vec 2.0架構的語音識別基礎模型,在960小時英語語音數據上預訓練
音頻分類
Transformers

M
dima806
2,109
7
Classical Composer Classification New
基於facebook/wav2vec2-base-960h的音頻分類模型,可識別音頻片段所屬的古典音樂作曲家
音頻分類
Transformers

C
dima806
15
2
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT架構在GTZAN音樂流派分類數據集上微調的音頻分類模型,準確率達89%。
音頻分類
Transformers

D
sandychoii
15
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
這是一個基於AST(Audio Spectrogram Transformer)架構的音頻分類模型,在GTZAN音樂流派分類數據集上進行了微調。
音頻分類
Transformers

A
nomad-ai
15
0
Mert Base
MERT是一種基於自監督學習的聲學音樂理解模型,通過教師模型提供偽標籤進行預訓練。
音頻分類
Transformers

M
yangwang825
26
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於distilhubert在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達89%
音頻分類
Transformers

D
VinayHajare
20
1
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
該模型是基於facebook/wav2vec2-base在GTZAN數據集上微調的音頻分類模型,主要用於音樂流派分類任務。
音頻分類
Transformers

W
wilson-wei
14
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,用於區分音樂和語音
音頻分類
Transformers

W
FerhatDk
20
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
基於AST架構的音頻分類模型,在GTZAN數據集上微調,用於音樂流派分類任務
音頻分類
Transformers

A
vineetsharma
14
0
Whisper Tiny Finetuned Gtzan
Apache-2.0
基於openai/whisper-tiny在GTZAN數據集上微調的語音分類模型,準確率達91%
音頻分類
Transformers

W
vineetsharma
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,主要用於音樂流派分類任務。
音頻分類
Transformers

D
susnato
14
0
Ast Finetuned Audioset 10 10 0.4593
基於AudioSet數據集微調的音頻譜圖變換器(AST)模型,用於音頻分類任務
音頻分類
Transformers

A
Xenova
82
0
Wav2musicgenre
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,用於識別音樂流派
音頻分類
Transformers

W
ramonpzg
20
0
Voip Classification
Apache-2.0
基於facebook/wav2vec2-base微調的語音分類模型,用於音頻文件夾數據集的分類任務
音頻分類
Transformers

V
james-xie-rng
18
0
Doa Model TL4
Openrail
該模型用於估計固定聲源的到達方向(DOA),基於SOFA數據集訓練,通過AST模型微調實現。
音頻分類
Transformers 英語

D
FidelOdok
15
0
Neunit Ks Kangyuan0601
Apache-2.0
該模型是基於facebook/wav2vec2-base在superb數據集上微調的音頻分類模型,在評估集上取得了99.87%的準確率。
音頻分類
Transformers

N
SHENMU007
16
0
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98