# 音頻特徵提取

Voc2vec Hubert Ls Pt
Apache-2.0
voc2vec是專為非語言人類數據設計的基礎模型,基於HuBERT框架構建,在125小時非語言音頻數據上預訓練。
音頻分類 Transformers 英語
V
alkiskoudounas
114
1
Voc2vec As Pt
Apache-2.0
voc2vec是一個專門為非語言人類數據設計的基礎模型,基於wav2vec 2.0框架構建。
音頻分類 Transformers 英語
V
alkiskoudounas
31
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於DistilHuBERT架構在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達86%
音頻分類 Transformers
D
f0ghedgeh0g
39
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於ntu-spml/distilhubert在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達到85%。
音頻分類 Transformers
D
Scher314
3
0
Wav2vec2 Base BirdSet XCL
wav2vec 2.0 是一個自監督學習框架,用於語音表示學習,能夠從未標記的音頻數據中學習語音特徵。
音頻分類 Transformers
W
DBD-research-group
177
0
Hubert Large Gender Auto
Apache-2.0
基於HuBERT大模型的性別分類器,準確率達98.61%
音頻分類 Transformers
H
ittailup
13
0
Wav2vec2 Base Gender Classification
Apache-2.0
基於facebook/wav2vec2-base微調的語音性別分類模型,在評估集上準確率達98.92%
音頻分類 Transformers
W
7wolf
14
1
Wav2vec2 Audio Emotion Classification
Apache-2.0
基於facebook/wav2vec2-base微調的音頻情感分類模型,在評估集上準確率達73.98%
音頻分類 Transformers
W
chin-may
77
5
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於NTU-SPML的DistilHuBERT在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
Terps
15
0
Wav2vec2 Large Robust 24 Ft Age Gender
該模型以原始音頻信號作為輸入,輸出年齡預測值以及性別概率(兒童/女性/男性),同時輸出最後一層transformer的池化狀態。
音頻分類 Transformers
W
audeering
44.13k
33
Wav2vec2 Large Robust 6 Ft Age Gender
該模型通過微調Wav2Vec2-Large-Robust,能夠從原始音頻中預測說話者的年齡和性別。
音頻分類 Transformers
W
audeering
19.29k
2
Audiocourseu4 MusicClassification
Apache-2.0
基於distilhubert在GTZAN數據集上微調的音樂分類模型,準確率達88%
音頻分類 Transformers
A
Imxxn
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於distilhubert在GTZAN音樂分類數據集上微調的模型,用於音樂流派分類任務
音頻分類 Transformers
D
artyomboyko
16
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT架構,在GTZAN音樂分類數據集上微調的音頻分類模型,主要用於音樂流派分類任務。
音頻分類 Transformers
D
calvpang
15
0
Distilhubert Finetuned Distilhubert
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
JanLilan
14
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於 DistilHuBERT 在 GTZAN 音樂分類數據集上微調的輕量級音頻特徵提取模型
音頻分類 Transformers
D
mory91
48
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
Maldopast
14
0
My Awesome Model
Apache-2.0
基於DistilHuBERT架構的音頻分類模型,在GTZAN音樂流派分類數據集上微調,準確率達94.75%
音頻分類 Transformers
M
AK-12
15
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於DistilHuBERT架構在GTZAN音樂流派分類數據集上微調的音頻分類模型
音頻分類 Transformers
D
technaxx
20
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達到76.25%
音頻分類 Transformers
D
pratik33
14
0
Distilhubert Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
arham061
15
0
Distilhubert Finetuned Gtzan V3 Finetuned Gtzan
Apache-2.0
該模型是基於DistilHuBERT架構在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
J3
13
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
這是一個基於AST(Audio Spectrogram Transformer)架構的音頻分類模型,在GTZAN音樂流派分類數據集上微調,準確率達到92%。
音頻分類 Transformers
A
Bhanu9Prakash
50
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達85%
音頻分類 Transformers
D
kfahn
15
0
Distilhubert Finetuned Ravdess
Apache-2.0
基於DistilHuBERT架構在RAVDESS語音情感數據集上微調的語音情感識別模型,準確率達92.36%
音頻分類 Transformers
D
pollner
43
2
Audio Classification Model
Apache-2.0
基於facebook/wav2vec2-base-960h微調的音頻分類模型,具體用途和訓練數據未明確說明。
音頻分類 Transformers
A
SinghManish
19
1
Distilhubert Finetuned Gtzan V2
Apache-2.0
該模型是基於DistilHuBERT在GTZAN音樂分類數據集上微調的版本,主要用於音樂流派分類任務。
音頻分類 Transformers
D
MariaK
17
0
Speech Accent Classification
Apache-2.0
基於Wav2Vec2架構的語音識別基礎模型,在960小時的英語語音數據上訓練,適用於語音分類任務。
音頻分類 Transformers 英語
S
dima806
40
4
Ast Bird Model
Bsd-3-clause
基於音頻數據集對MIT/ast-finetuned-audioset-10-10-0.4593進行微調的音頻分類模型
音頻分類 Transformers
A
saadashraf
22
0
MERT V1 95M
MERT-v1-330M 是一個基於 MLM 範式訓練的高級音樂理解模型,具有 330M 參數,支持 24K Hz 音頻採樣率和 75 Hz 特徵率,適用於多種音樂信息檢索任務。
音頻分類 Transformers
M
m-a-p
83.72k
32
Wav2vec2 Base Finetuned Coscan Age Group
Apache-2.0
基於wav2vec2-base在coscan-speech數據集上微調的年齡組分類模型,驗證集準確率達99.8%
音頻分類 Transformers
W
versae
34
0
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53
Apache-2.0
該模型是基於facebook/wav2vec2-large-xlsr-53在AI Light Dance數據集上微調的自動語音識別模型。
語音識別 Transformers
A
gary109
26
1
Ai Light Dance Chord Ft Wav2vec2 Large Xlsr 53
Apache-2.0
該模型是基於facebook/wav2vec2-large-xlsr-53在GARY109/AI_Light_Dance - ONSET-CHORD2數據集上微調的自動語音識別模型。
語音識別 Transformers
A
gary109
46
0
Wav2vec2 Base Sound2
Apache-2.0
基於facebook/wav2vec2-base微調的語音處理模型,在評估集上準確率達53.57%
音頻分類 Transformers
W
learningdude
17
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase