# 高精度ASR

Gigaam Ctc With Lm
MIT
俄語自動語音識別模型,支持外部ngram語言模型和束搜索解碼,可提取詞級時間戳
語音識別 Transformers 其他
G
waveletdeboshir
30
1
Quantum STT
Apache-2.0
Quantum_STT 是一種先進的自動語音識別(ASR)和語音翻譯模型,基於大規模弱監督訓練,支持多種語言和任務。
語音識別 Transformers 支持多種語言
Q
sbapan41
100
1
Gigaam Rnnt
MIT
GigaAM-v2-RNNT 是一個俄語自動語音識別(ASR)模型,基於RNNT架構,適用於語音轉文本任務。
語音識別 Transformers 其他
G
waveletdeboshir
70
1
Gigaam Ctc
MIT
GigaAM-v2-CTC 是一個俄語自動語音識別(ASR)模型,基於CTC損失函數訓練,可通過Hugging Face transformers庫使用。
語音識別 Transformers 其他
G
waveletdeboshir
255
1
Whisper Large V3 Persian Common Voice 17
Apache-2.0
基於 Whisper Large v3 微調的波斯語自動語音識別模型,在 Common Voice 17 數據集上訓練,包含超過 250,000 個波斯語音頻樣本,顯著提升了識別準確性和魯棒性。
語音識別 Transformers
W
MohammadGholizadeh
978
3
Canary 1b Flash
NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族,在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。
語音識別 支持多種語言
C
nvidia
125.22k
186
Phi 4 Multimodal Instruct Ko Asr
基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型,在zeroth-korean和fleurs數據集上表現優異。
文本生成音頻 Transformers 韓語
P
junnei
354
3
Whisper Large V3
Apache-2.0
基於OpenAI Whisper Large v3模型針對希伯來語進行的微調版本,專注於希伯來語音頻轉錄任務
語音識別 Transformers 其他
W
ivrit-ai
2,068
3
Artst Asr V3 Qasr
MIT
基於QASR數據集微調的阿拉伯語自動語音識別模型,特別適配方言變體
語音識別 Transformers 支持多種語言
A
MBZUAI
636
1
Vi Whisper Large V3 Turbo V1
針對越南語自動語音識別(ASR)任務優化的Whisper-V3-Turbo模型,使用多個越南語數據集微調
語音識別 Transformers 其他
V
suzii
182
7
Asr Streaming Conformer Gigaspeech
Apache-2.0
基於GigaSpeech數據集預訓練的英文自動語音識別模型,支持流式和非流式轉錄
語音識別 英語
A
speechbrain
66
4
Ja Cascaded S2t Translation
Apache-2.0
這是一個基於級聯方法的日語語音到任意目標語言文本的翻譯流水線,由自動語音識別(ASR)和文本翻譯兩部分組成。
語音識別 Transformers
J
japanese-asr
60
4
Parakeet Tdt Ctc 110m
由NVIDIA NeMo和Suno.ai聯合開發的英語語音識別模型,支持標點符號和大小寫轉換,採用FastConformer-TDT-CTC架構
語音識別 英語
P
nvidia
50.47k
28
Indicconformer Stt Gu Hybrid Ctc Rnnt Large
MIT
IndicConformer 是一個基於混合 CTC-RNNT 架構的 Conformer 自動語音識別(ASR)模型,專門用於古吉拉特語的語音轉錄。
語音識別 其他
I
ai4bharat
340
1
Whisper Large V3 Ca 3catparla
Apache-2.0
這是一個針對加泰羅尼亞語優化的自動語音識別模型,基於OpenAI的Whisper-large-v3微調,由巴塞羅那超級計算中心開發。
語音識別 Transformers 其他
W
projecte-aina
122
4
Parakeet Tdt Ctc 0.6b Ja
Parakeet TDT-CTC 0.6B是一個能夠轉錄帶標點符號的日語語音的自動語音識別(ASR)模型,由NVIDIA NeMo團隊開發。
語音識別 日語
P
nvidia
4,184
22
Asr Streaming Conformer Librispeech
Apache-2.0
這是一個基於LibriSpeech數據集預訓練的端到端自動語音識別系統,支持流式和非流式模式,適用於英文語音識別。
語音識別 英語
A
speechbrain
304
10
Canary 1b
Canary-1B是NVIDIA NeMo開發的多語言多任務模型,支持英語、德語、法語和西班牙語的自動語音識別和語音翻譯任務。
語音識別 支持多種語言
C
nvidia
7,734
421
Nb Whisper Large Verbatim
Apache-2.0
基於OpenAI Whisper開發的挪威語自動語音識別模型,經過額外訓練實現全小寫無標點的逐字轉錄
語音識別 支持多種語言
N
NbAiLabBeta
765
2
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Indicwav2vec Odia
Apache-2.0
基於Wav2Vec2架構的印地語自動語音識別(ASR)模型,由AI4Bharat開發
語音識別 Transformers 其他
I
ai4bharat
401
2
Stt Ua Fastconformer Hybrid Large Pc
NVIDIA FastConformer-Hybrid Large (ua) 是一個用於烏克蘭語語音識別的混合模型,結合了Transducer和CTC兩種損失函數訓練,參數約1.15億。
語音識別
S
nvidia
381
4
Speecht5 Asr
MIT
基於LibriSpeech數據集微調的SpeechT5自動語音識別模型,支持將語音轉換為文本。
語音識別 Transformers
S
microsoft
12.30k
41
Whisper Th Medium Combined
Apache-2.0
基於openai/whisper-medium在增強版的泰語數據集上進行微調,用於泰語自動語音識別
語音識別 Transformers
W
biodatlab
4,167
17
Whisper Medium Ko Zeroth
Apache-2.0
基於OpenAI Whisper Medium模型在Zeroth韓語數據集上微調的語音識別模型,詞錯誤率3.64%
語音識別 Transformers 韓語
W
seastar105
154
16
Whisper Medium.en
Apache-2.0
Whisper是OpenAI開發的自動語音識別(ASR)模型,經過68萬小時標註語音數據訓練,具有強大的泛化能力。
語音識別 英語
W
openai
36.92k
53
Exp W2v2t Zh Cn Wavlm S596
Apache-2.0
基於microsoft/wavlm-large模型微調的中文語音識別模型,支持簡體中文,使用Common Voice 7.0 (zh-CN)數據集訓練。
語音識別 Transformers
E
jonatasgrosman
22
1
Exp W2v2t Fr Unispeech S42
Apache-2.0
基於microsoft/unispeech-large-1500h-cv模型,使用Common Voice 7.0(法語)數據集微調的語音識別模型
語音識別 Transformers 法語
E
jonatasgrosman
20
0
Exp W2v2t It Vp 100k S449
Apache-2.0
基於facebook/wav2vec2-large-100k-voxpopuli模型微調的意大利語自動語音識別模型,使用Common Voice 7.0意大利語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
17
0
Exp W2v2t It Wav2vec2 S609
Apache-2.0
基於facebook/wav2vec2-large-lv60模型微調的意大利語自動語音識別模型,使用Common Voice 7.0意大利語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
18
0
Exp W2v2t Ja Vp It S544
Apache-2.0
基於facebook/wav2vec2-large-it-voxpopuli模型,使用Common Voice 7.0 (日語版)的訓練集進行語音識別微調的日語自動語音識別模型。
語音識別 Transformers 日語
E
jonatasgrosman
18
0
Exp W2v2t Ja Unispeech Sat S884
Apache-2.0
基於microsoft/unispeech-sat-large模型微調的日語自動語音識別模型,使用Common Voice 7.0日語數據集訓練。
語音識別 Transformers 日語
E
jonatasgrosman
19
0
Exp W2v2t Ja Wavlm S729
Apache-2.0
基於microsoft/wavlm-large模型微調的日語自動語音識別模型,使用Common Voice 7.0日語數據集訓練
語音識別 Transformers 日語
E
jonatasgrosman
15
2
Exp W2v2t En Unispeech Sat S459
Apache-2.0
基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 Transformers 英語
E
jonatasgrosman
22
0
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1
Apache-2.0
該模型是基於wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2數據集上微調的自動語音識別模型,主要用於歌唱語音識別任務。
語音識別 Transformers
A
gary109
185
0
First Model
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的語音識別模型,在評估集上取得了較低的詞錯誤率。
語音識別 Transformers
F
Vkt
26
0
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
Facebook開發的基於Wav2Vec 2.0架構的荷蘭語自動語音識別(ASR)模型,採用XLSR-53多語言預訓練模型微調
語音識別 其他
W
facebook
203
2
Xls R 300m Dv
Apache-2.0
這是一個基於facebook/wav2vec2-xls-r-300m模型在Common Voice 8迪維希語數據集上微調的自動語音識別模型
語音識別 Transformers 其他
X
shahukareem
14
0
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
Facebook開發的基於Wav2Vec 2.0架構的大規模葡萄牙語自動語音識別(ASR)模型,支持葡萄牙語語音轉文本任務。
語音識別 其他
W
facebook
425
6
Wav2vec2 Xls R 300m Bangla Command
Apache-2.0
這是一個基於wav2vec2 XLS-R架構的300M參數孟加拉語語音識別模型,專門優化用於指令識別任務。
語音識別 Transformers 其他
W
sshasnain
28
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase