# 語音特徵提取

Whisper Large V3 Narrow Accent
Bsd-3-clause
基於Whisper-Large v3的細粒度口音分類模型,支持16種英語口音識別
音頻分類 Safetensors 英語
W
tiantiaf
237
3
My Frugal Audio Model
Apache-2.0
這是基於facebook/wav2vec2-base微調的音頻處理模型,主要用於語音相關任務
音頻分類 Transformers
M
hsalehILB
1
0
W2v Bert 2.0
MIT
基於Conformer架構的語音編碼器,在450萬小時無標註音頻數據上預訓練,支持143種以上語言
語音識別 Transformers 支持多種語言
W
facebook
477.05k
170
My Awesome Mind Model
Apache-2.0
基於facebook/wav2vec2-base微調的音頻分類模型,在評估集上達到58.92%的準確率
音頻分類 Transformers
M
Krithika-p
15
0
Distilhubert Finetuned Gtzan
Apache-2.0
基於DistilHuBERT架構在GTZAN音樂分類數據集上微調的輕量級音頻分類模型
音頻分類 Transformers
D
CornerINCorner
20
0
Digit Mask Data2vec Audio Base 960h Ft
Apache-2.0
基於data2vec-audio-base-960h微調的音頻數字識別模型,在數字掩碼增強數據集上表現出色
音頻分類 Transformers
D
mazkooleg
14
0
Wavlm Basic S F O 8batch 10sec 0.0001lr Unfrozen
基於microsoft/wavlm-large微調的語音處理模型,在評估集上達到80%準確率和79.57% F1分數
音頻分類 Transformers
W
reralle
14
0
Wav2vec2 S F O 8batch 5sec 0.0001lr Unfrozen
Apache-2.0
基於facebook/wav2vec2-large微調的語音處理模型,支持語音識別任務
語音識別 Transformers
W
reralle
21
0
Wavlm Basic S R 5c 8batch 5sec 0.0001lr Unfrozen
基於microsoft/wavlm-large微調的語音處理模型,在評估集上準確率達75%
音頻分類 Transformers
W
reralle
16
0
Wavlm Basic N F N 8batch 5sec 0.0001lr Unfrozen
基於microsoft/wavlm-large微調的語音處理模型,在評估集上準確率達73.33%
音頻分類 Transformers
W
reralle
14
0
Wav2vec2 Base POSITIVE NEGATIVE ONLY BALANCED CLASSES
Apache-2.0
基於facebook/wav2vec2-base微調的語音處理模型,專注於平衡正負類分類任務
音頻分類 Transformers
W
aherzberg
17
0
Wav2vec2 Nsc Final 1 Google Colab
基於wav2vec2架構的語音處理模型,訓練細節未完全公開
語音識別 Transformers
W
YuanWellspring
99
0
Wav2vec Test
這是一個基於wav2vec架構的語音處理測試模型,具體用途和訓練數據未明確說明。
語音識別 Transformers
W
eugenetanjc
73
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase