# 16kHz音頻適配

Whisper Medium Vaani Telugu
MIT
基於OpenAI Whisper-small架構的泰盧固語自動語音識別模型,由ARTPARK-IISc團隊針對印度語言優化
語音識別 其他
W
ARTPARK-IISc
26
1
Viwav2vec2 Base 3k
該模型是基於3千小時越南語語音數據預訓練的Wav2Vec2基礎模型,適用於越南語語音識別任務,需在下游任務上微調後使用。
語音識別 Transformers 其他
V
dragonSwing
41
2
Data2vec Audio Large 100h
Apache-2.0
Data2Vec是一個通用的自監督學習框架,適用於語音、自然語言處理和計算機視覺任務。該模型是基於Librispeech語音音頻進行100小時預訓練和微調的大模型。
語音識別 Transformers 英語
D
facebook
46
2
Wav2vec2 Large Xlsr 53 Sakha
Apache-2.0
基於XLSR-53大模型微調的雅庫特語語音識別模型,詞錯誤率32.23%
語音識別 其他
W
anton-l
25
0
Wav2vec2 Large Xlsr 53 Chuvash
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的楚瓦什語自動語音識別模型,在通用語音數據集上訓練,詞錯誤率為40.01%。
語音識別 其他
W
anton-l
30
0
Wav2vec2 Large Xlsr 53 German
Apache-2.0
這是一個針對德語語音識別任務微調的XLSR-53大模型,基於Facebook的wav2vec2-large-xlsr-53模型,在Common Voice 6.1德語數據集上進行了微調。
語音識別 德語
W
jonatasgrosman
8,266
7
Wav2vec2 Large Fr Voxpopuli French
Apache-2.0
基於facebook/wav2vec2-large-fr-voxpopuli微調的法語語音識別模型,在Common Voice 6.1法語數據集上訓練,支持16kHz音頻輸入
語音識別 法語
W
jonatasgrosman
51
3
Wav2vec2 Large El Voxpopuli V2
基於VoxPopuli語料庫預訓練的希臘語語音識別模型,使用17.7小時未標註數據
語音識別 Transformers 其他
W
facebook
24
0
Wav2vec2 Large Superb Ks
Apache-2.0
基於Wav2Vec2-Large-LV60預訓練模型,在SUPERB關鍵詞檢測任務上微調的語音分類模型
語音識別 Transformers 英語
W
superb
18
1
Wav2vec2 Large Xlsr Bengali
基於facebook/wav2vec2-large-xlsr-53模型微調的孟加拉語自動語音識別模型,使用OpenSLR數據集訓練。
語音識別 Transformers
W
tanmoyio
24.32k
3
Wav2vec2 Large West Germanic Voxpopuli V2
Facebook的Wav2Vec2大型模型,僅在西日耳曼語系的VoxPopuli語料庫66.3無標註數據上進行預訓練。
語音識別 Transformers
W
facebook
25
1
Wav2vec2 Large Xlrs Estonian
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型在愛沙尼亞語通用語音數據集上微調的自動語音識別(ASR)模型。
語音識別 其他
W
birgermoell
18
0
Wav2vec2 Large Xlsr 53 Dhivehi V2
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型,使用普通語音的迪維希語數據進行了微調的自動語音識別模型。
語音識別 Transformers 其他
W
shahukareem
31
3
Sew D Base Plus 400k Ft Ls100h
Apache-2.0
SEW-D-base+ 是由 ASAPP Research 開發的高效語音識別模型,基於 16kHz 採樣的語音音頻進行預訓練,在 LibriSpeech 數據集上表現出色。
語音識別 Transformers 英語
S
asapp
66
4
W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500
基於facebook/wav2vec2-large-xlsr-53在Common Voice日語數據集上微調的語音識別模型
語音識別 Transformers
W
qqpann
15
0
Wav2vec2 Large 960h Lv60
Apache-2.0
Wav2Vec2是一個強大的語音識別模型,通過自監督學習從原始音頻中提取特徵,並在有限標記數據下實現高性能語音識別。
語音識別 英語
W
facebook
7,011
6
Wav2vec2 Large Xlsr 53 Mongolian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在蒙古語通用語音數據集上微調的自動語音識別模型
語音識別 Transformers 其他
W
tugstugi
251
0
Wav2vec2 Base Hr Voxpopuli V2
基於Facebook Wav2Vec2架構的語音模型,使用克羅地亞語VoxPopuli語料庫預訓練
語音識別 Transformers 其他
W
facebook
30
1
Wav2vec2 Xlsr Multilingual 53 Fa
基於wav2vec 2.0架構的多語言語音識別模型,專門針對波斯語進行微調,顯著降低詞錯誤率
語音識別 Transformers
W
masoudmzb
83
7
Wav2vec2 Xlsr 53 Tamil
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的泰米爾語語音識別模型,在Common Voice泰米爾語數據集上訓練。
語音識別 其他
W
anuragshas
64
0
Unispeech 1350 En 17h Ky Ft 1h
基於微軟UniSpeech架構的語音識別模型,專門針對吉爾吉斯語進行微調
語音識別 Transformers 其他
U
microsoft
39
1
Wav2vec2 Base Da Voxpopuli V2
基於Facebook Wav2Vec2架構的語音模型,專門針對丹麥語進行預訓練,使用VoxPopuli語料庫的13.6k未標註數據。
語音識別 Transformers 其他
W
facebook
35
0
Viwav2vec2 Base 100h
Apache-2.0
基於VLSP數據集中100小時未標註越南語語音音頻預訓練的Wav2Vec2基礎模型,需在下游任務上微調使用。
語音識別 Transformers 其他
V
dragonSwing
19
0
Hubert Large Superb Ks
Apache-2.0
基於Hubert-Large架構的關鍵詞檢測模型,在SUPERB基準測試中表現優異
語音識別 Transformers 英語
H
superb
78
0
Wav2vec2 Large Xlsr 53 Vietnamese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 Transformers 其他
W
not-tanh
22
4
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的西班牙語語音識別模型,在Common Voice 6.1西班牙語數據集上訓練
語音識別 西班牙語
W
jonatasgrosman
46.28k
30
Wav2vec2 Base Vn 270h
基於約270小時越南語標註數據微調的語音識別模型,支持越南語自動語音識別任務
語音識別 其他
W
dragonSwing
202
8
Wav2vec2 Large Xlsr 53 Hungarian
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的匈牙利語自動語音識別模型,使用通用語音數據集訓練。
語音識別 其他
W
anton-l
17
0
Sew Tiny 100k
Apache-2.0
SEW-tiny是由ASAPP Research開發的壓縮高效型語音預訓練模型,基於16kHz採樣的語音音頻進行預訓練,適用於多種下游語音任務。
語音識別 Transformers 支持多種語言
S
asapp
1,080
3
Wav2vec2 Large Xlsr 53 Estonian
Apache-2.0
基於Facebook的XLSR-53大模型微調的愛沙尼亞語語音識別模型,在通用語音數據集上達到30.74%詞錯誤率
語音識別 其他
W
anton-l
3,259
0
Wav2vec2 Large Xlsr Georgian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的格魯吉亞語自動語音識別模型,支持16kHz採樣率語音輸入
語音識別 Transformers 其他
W
xsway
14.80k
1
Sew D Tiny 100k
Apache-2.0
SEW-D是由ASAPP Research開發的壓縮高效型語音預訓練模型,基於16kHz採樣的語音音頻進行預訓練,適用於多種下游語音任務。
語音識別 Transformers 英語
S
asapp
1,074
2
Wav2vec2 Large Xlsr 53 Estonian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型,使用通用語音數據集對愛沙尼亞語進行微調的自動語音識別模型
語音識別 Transformers 其他
W
vasilis
26
0
Wav2vec2 Large Xlsr Hindi Marathi
Apache-2.0
基於Facebook的wav2vec2-large-xlsr-53模型微調,支持印地語和馬拉地語的自動語音識別任務
語音識別 Transformers 其他
W
tanmaylaud
76
0
Wav2vec2 Large Xlsr 53 Breton
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在布列塔尼語上微調的語音識別模型
語音識別 其他
W
mrm8488
26
0
Wav2vec2 Large Xlsr 53 Lithuanian
Apache-2.0
基於Facebook的XLSR-53大模型微調的立陶宛語語音識別模型,在Common Voice數據集上訓練,測試WER為56.55%。
語音識別 其他
W
DeividasM
4,105
1
Wav2vec2 Large Xlsr Vietnamese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型
語音識別 其他
W
Nhut
22
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase