2025年最佳 348 款音頻分類工具

Mms Lid 126
基於Facebook大規模多語言語音項目微調的語言識別模型,支持126種語言的音頻分類
音頻分類 Transformers 支持多種語言
M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
該模型是基於facebook/wav2vec2-base在speech_commands數據集上微調的語音命令識別模型,準確率達97.59%。
音頻分類 Transformers
W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基於OpenAI Whisper-medium微調的語音語種識別模型,在FLEURS數據集上達到88.05%準確率
音頻分類 Transformers
W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
音頻分類 Transformers 英語
W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於SpeechBrain框架和ECAPA-TDNN架構的語音語言識別模型,支持107種語言的識別和語音嵌入向量提取。
音頻分類 支持多種語言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
音頻分類 Transformers
A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基於openai/whisper-small微調的通用語言識別模型,在評估集上準確率達88.6%
音頻分類 Transformers
W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微調的wav2vec2模型進行語音情感識別,在IEMOCAP數據集上訓練
音頻分類 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基於AudioSet數據集微調的音頻頻譜圖變換器,將音頻轉換為頻譜圖後使用視覺變換器架構處理,在音頻分類任務中表現優異。
音頻分類 Transformers
A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基於Librispeech-clean-100數據集微調的性別識別模型,在測試集上F1分數達0.9993
音頻分類 Transformers
W
alefiury
182.33k
42
Wav2vec English Speech Emotion Recognition
Apache-2.0
基於Wav2Vec 2.0微調的英語語音情感識別模型,能夠識別7種不同情感
音頻分類 Transformers
W
r-f
139.06k
19
Hubert Large Speech Emotion Recognition Russian Dusha Finetuned
Apache-2.0
該模型是基於HuBERT架構微調的俄語語音情感識別模型,在DUSHA數據集上訓練,能夠識別中性、憤怒、積極、悲傷等情感狀態。
音頻分類 Transformers 其他
H
xbgoose
111.13k
13
MERT V1 95M
MERT-v1-330M 是一個基於 MLM 範式訓練的高級音樂理解模型,具有 330M 參數,支持 24K Hz 音頻採樣率和 75 Hz 特徵率,適用於多種音樂信息檢索任務。
音頻分類 Transformers
M
m-a-p
83.72k
32
Audiobox Aesthetics
統一的語音、音樂和聲音自動質量評估模型
音頻分類
A
facebook
56.27k
24
Mms Lid 256
這是一個基於Wav2Vec2架構的語音語言識別模型,能夠識別256種語言,屬於Facebook大規模多語言語音(MMS)項目的一部分。
音頻分類 Transformers 支持多種語言
M
facebook
48.38k
10
Wav2vec2 Large Robust 24 Ft Age Gender
該模型以原始音頻信號作為輸入,輸出年齡預測值以及性別概率(兒童/女性/男性),同時輸出最後一層transformer的池化狀態。
音頻分類 Transformers
W
audeering
44.13k
33
Wav2vec2 Lg Xlsr En Speech Emotion Recognition
Apache-2.0
基於Wav2Vec 2.0微調的語音情感識別模型,支持識別8種英語情感,在RAVDESS數據集上準確率達82.23%
音頻分類 Transformers
W
ehcalabres
39.83k
221
Wav2vec2 Base Superb Er
Apache-2.0
這是一個基於Wav2Vec2架構的語音情感識別模型,移植自S3PRL項目,用於識別語音中的情感類別。
音頻分類 Transformers 英語
W
superb
28.14k
11
SER Odyssey Baseline WavLM Multi Attributes
MIT
基於WavLM架構的多屬性語音情緒識別基線模型,用於預測激活度、支配度和效價三個情緒維度
音頻分類 Transformers 英語
S
3loi
23.09k
7
Wav2vec2 Large Robust 6 Ft Age Gender
該模型通過微調Wav2Vec2-Large-Robust,能夠從原始音頻中預測說話者的年齡和性別。
音頻分類 Transformers
W
audeering
19.29k
2
MERT V1 330M
MERT-v1-330M是一個基於MLM範式訓練的高級音樂理解模型,具有330M參數規模,支持24K Hz音頻採樣率,適用於多種音樂信息檢索任務。
音頻分類 Transformers
M
m-a-p
16.92k
65
Voice Gender Classifier
MIT
基於ECAPA-TDNN架構的預訓練模型,用於從人類語音中分類性別
音頻分類 Transformers
V
JaesungHuh
14.01k
16
Voice Safety Classifier
基於WavLM base plus架構的語音內容安全檢測模型,用於識別語音聊天中的毒性內容
音頻分類 Transformers
V
Roblox
11.55k
37
Hubert Base Superb Ks
Apache-2.0
該模型是基於Hubert架構的關鍵詞識別模型,用於將語音片段分類為預定義的關鍵詞集合。
音頻分類 Transformers 英語
H
superb
11.29k
8
Ast Finetuned Speech Commands V2
Bsd-3-clause
基於Speech Commands v2數據集微調的音頻頻譜圖變換器模型,用於音頻分類任務,準確率達98.12%。
音頻分類 Transformers
A
MIT
10.94k
15
Hubert Large Superb Er
Apache-2.0
基於Hubert-Large預訓練模型的情感識別模型,用於預測語音中的情感類別
音頻分類 Transformers 英語
H
superb
10.24k
21
Voxlingua107 Epaca Tdnn
Apache-2.0
基於VoxLingua107數據集訓練的ECAPA-TDNN架構口語語言識別模型,支持107種語言識別
音頻分類 其他
V
TalTechNLP
10.21k
28
AST VoxCelebSpoof Synthetic Voice Detection
MIT
基於MIT/ast-finetuned-audioset-10-10-0.4593微調的合成語音檢測模型,在VoxCelebSpoof數據集上表現出色
音頻分類 Transformers 英語
A
MattyB95
9,518
4
Hubert Base Superb Er
Apache-2.0
該模型是基於Hubert-Base架構的情感識別模型,在SUPERB情感識別任務上訓練,用於語音情感分類
音頻分類 Transformers 英語
H
superb
7,887
20
Speech Emotion Recognition With Openai Whisper Large V3
Apache-2.0
本項目利用Whisper模型實現語音情感識別,能夠將音頻分類為快樂、悲傷、驚訝等不同情感類別。
音頻分類 Transformers
S
firdhokk
7,750
33
Wav2vec2 Xlsr Persian Speech Emotion Recognition
Apache-2.0
這是一個基於Wav2Vec 2.0架構的波斯語語音情感識別模型,能夠識別六種基本情感狀態。
音頻分類 Transformers 其他
W
m3hrdadfi
5,114
8
Voice Safety Classifier V2
基於WavLM架構的多語言語音毒性檢測模型,支持8種語言,可識別6類違規內容
音頻分類 Transformers 支持多種語言
V
Roblox
5,073
4
Wav2vec Vm Finetune
Apache-2.0
基於facebook/wav2vec2-xls-r-300m微調的語音郵件檢測模型,專用於區分語音郵件問候語和真人應答。
音頻分類 Transformers 英語
W
jakeBland
5,000
5
Wav2vecbert2 Filledpause
Apache-2.0
用於對音頻中20毫秒的幀進行分類,判斷是否存在填充停頓(如'eee'、'errm'等)的模型
音頻分類 Safetensors 其他
W
classla
4,290
0
Mms Lid 4017
這是一個基於Wav2Vec2架構的語音語言識別模型,能夠識別4017種語言,屬於Facebook大規模多語言語音項目的一部分。
音頻分類 Transformers 支持多種語言
M
facebook
3,721
8
Wav2vec2 Base Lang Id
Apache-2.0
基於facebook/wav2vec2-base在common_language數據集上微調的語音語言識別模型
音頻分類 Transformers
W
anton-l
3,470
7
Music Genres Classification
Apache-2.0
該模型基於facebook/wav2vec2-base-960h訓練,用於音樂流派分類任務,支持10種流派識別。
音頻分類 Transformers
M
dima806
3,409
27
Ssast Small Patch Audioset 16 16
Bsd-3-clause
基於AudioSet和Librispeech預訓練的音頻分類模型,採用視覺變換器架構處理音頻頻譜圖
音頻分類 Transformers
S
Simon-Kotchou
2,408
1
Accent Id Commonaccent Ecapa
MIT
該模型使用ECAPA-TDNN架構對英語語音進行16種口音分類,在CommonAccent數據集上訓練,測試準確率達87%。
音頻分類 英語
A
Jzuluaga
2,291
15
Deepfake Audio Detection V2
Apache-2.0
基於音頻文件夾數據集微調的Deepfake音頻檢測模型,準確率達99.73%
音頻分類 Transformers
D
MelodyMachine
2,289
14
Wav2vec2 Base Audioset
基於HuBERT架構的音頻表徵學習模型,在完整AudioSet數據集上預訓練完成
音頻分類 Transformers
W
ALM
2,191
0
Musical Instrument Detection
Apache-2.0
基於wav2vec 2.0架構的語音識別基礎模型,在960小時英語語音數據上預訓練
音頻分類 Transformers
M
dima806
2,109
7
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase