# 多語言語音識別

Whisper Small
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
語音識別 Safetensors 支持多種語言
W
unsloth
50
1
Whisper Large V3 Turbo
MIT
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標記數據上訓練,具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
語音識別 Transformers 支持多種語言
W
unsloth
94
1
Whisper Large V3
Apache-2.0
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,支持多種語言
語音識別 Safetensors 支持多種語言
W
unsloth
4,002
1
Ipa Whisper Base
Apache-2.0
基於Whisper-base微調的多語言語音識別模型,支持國際音標(IPA)輸出
語音識別 支持多種語言
I
neurlang
599
6
Quantum STT
Apache-2.0
Quantum_STT 是一種先進的自動語音識別(ASR)和語音翻譯模型,基於大規模弱監督訓練,支持多種語言和任務。
語音識別 Transformers 支持多種語言
Q
sbapan41
100
1
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turbo 是基於 Whisper large-v3 的剪枝微調版本,解碼層數從32減少到4,速度大幅提升但質量略有下降。
語音識別 支持多種語言
W
xkeyC
546
1
Canary 180m Flash
NVIDIA NeMo Canary Flash 是一個多語言多任務語音模型,支持英語、德語、法語和西班牙語的自動語音識別和翻譯任務。
語音識別 支持多種語言
C
nvidia
15.17k
60
Canary 1b Flash
NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族,在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。
語音識別 支持多種語言
C
nvidia
125.22k
186
Whisper Large V3.w4a16
Apache-2.0
這是openai/whisper-large-v3的量化版本,採用INT4權重量化和FP16激活量化,適用於vLLM推理。
語音識別 Transformers 英語
W
nm-testing
20
1
Owls 4B 180K
OWLS是一套Whisper風格的模型,旨在幫助研究人員理解語音模型的擴展特性,支持多語言語音識別和翻譯。
語音識別 其他
O
espnet
40
5
Faster Whisper Large V3 Turbo Int8 Ct2
MIT
這是OpenAI Whisper-large-v3-turbo模型的CTranslate2轉換版本,採用INT8量化技術,主要用於高效語音識別任務。
語音識別 支持多種語言
F
Zoont
123
4
Mahadhwani Pretrained Conformer
MIT
基於自監督學習的預訓練Conformer編碼器模型,支持印度22種預定語言的自動語音識別任務。
語音識別
M
ai4bharat
349
1
Whisper Large V3 Distil Multi4 V0.2
MIT
這是一個多語言蒸餾版的Whisper模型,具有2個解碼器層,支持4種歐洲語言:英語、法語、西班牙語和德語。
語音識別 Transformers 支持多種語言
W
bofenghuang
70
1
Whisper Large V3 Distil Multi7 V0.2
MIT
一個多語言蒸餾版Whisper模型,支持7種歐洲語言的自動語音識別,具有語碼轉換能力
語音識別 Transformers 支持多種語言
W
bofenghuang
119
1
Voice Clone Large Finetune Final
Apache-2.0
該模型是基於openai/whisper-large-v3微調的語音克隆模型,主要用於語音識別任務,在評估集上詞錯誤率為15.3572。
語音識別 Transformers
V
neuronbit
37
2
Whisper Large V3 Turbo
Apache-2.0
Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸餾版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
語音識別 支持多種語言
W
deepdml
883
6
Faster Whisper Large V3 Turbo Ct2
MIT
這是將Whisper large-v3 turbo模型轉換為CTranslate2格式的版本,用於高效的自動語音識別任務。
語音識別 支持多種語言
F
deepdml
254.96k
128
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別 Transformers 支持多種語言
W
openai
4.0M
2,317
Whisperfile
Apache-2.0
Whisper是一個基於Transformer的編碼器-解碼器模型,用於語音識別和翻譯任務,支持多語言處理。
語音識別
W
cjpais
353
9
Whisper Large V3 Gguf
Apache-2.0
Whisper 是一個多語言自動語音識別(ASR)系統,支持多種語言的語音轉文本任務。
語音識別 支持多種語言
W
vonjack
931
14
Whisper Small Uz En Ru Lang Id
Apache-2.0
基於Whisper-small微調的多語言語音分類模型,支持烏茲別克語、英語和俄語的語音識別與分類。
音頻分類 Transformers 支持多種語言
W
fitlemon
17
1
Owsm Ctc V3.1 1B
OWSM-CTC是一個基於分層多任務自條件CTC的純編碼器語音基礎模型,支持多語言語音識別、語音翻譯和語言識別。
語音識別 其他
O
espnet
116
13
Whisper Large V3 Japanese 4k Steps Ct2
MIT
這是OpenAI Whisper large-v3模型的CTranslate2轉換版本,專門針對日語進行了4000步的額外訓練,支持多種語言的語音識別。
語音識別 支持多種語言
W
JhonVanced
54
4
Faster Whisper Large V3 Ja
MIT
基於OpenAI Whisper large-v3的日語優化版本,支持多語言語音識別
語音識別 支持多種語言
F
JhonVanced
46
3
Canary 1b
Canary-1B是NVIDIA NeMo開發的多語言多任務模型,支持英語、德語、法語和西班牙語的自動語音識別和語音翻譯任務。
語音識別 支持多種語言
C
nvidia
7,734
421
Whisper Large V3 Ft Cv16 Mn
Apache-2.0
基於OpenAI Whisper Large V3模型在Common Voice 16.0數據集上微調的語音識別模型
語音識別 Transformers
W
sanchit-gandhi
34
1
Multilingual Distilwhisper 28k
MIT
基於whisper-small模型改進的多語言自動語音識別模型,通過CLSR模塊和知識蒸餾提升目標語言性能
語音識別 Transformers 其他
M
naver
47
13
Faster Whisper Tiny
MIT
基於OpenAI Whisper微型模型的CTranslate2轉換版本,用於高效語音識別
語音識別 支持多種語言
F
Systran
875.91k
10
Faster Whisper Base
MIT
這是OpenAI Whisper基礎模型的CTranslate2轉換版本,用於高效語音識別任務。
語音識別 支持多種語言
F
Systran
1.1M
13
Faster Whisper Medium
MIT
這是OpenAI Whisper中等模型的CTranslate2轉換版本,用於高效語音識別任務。
語音識別 支持多種語言
F
Systran
155.87k
29
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型,支持多種語言的語音轉文字任務。
語音識別 支持多種語言
F
Systran
713.48k
376
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於VoxLingua107數據集訓練的ECAPA-TDNN架構口語識別模型,支持107種語言分類
音頻分類 支持多種語言
L
apenasissso
19
0
Mms 1b Fl102
MMS-1B-FL102是Facebook大規模多語言語音項目的一部分,是一個支持102種語言的自動語音識別模型,基於10億參數的Wav2Vec2架構,通過適配器技術實現多語言轉錄。
語音識別 Transformers 支持多種語言
M
facebook
6,360
26
Mms 1b All
Facebook大規模多語言語音項目的一部分,支持1162種語言的自動語音識別
語音識別 Transformers 支持多種語言
M
facebook
108.10k
140
Faster Whisper Large V1
MIT
這是OpenAI Whisper large-v1模型的CTranslate2轉換版本,用於高效語音識別任務
語音識別 支持多種語言
F
guillaumekln
237
4
Faster Whisper Large V2
MIT
這是OpenAI Whisper large-v2模型的CTranslate2轉換版本,用於高效語音識別
語音識別 支持多種語言
F
guillaumekln
161.19k
199
Faster Whisper Medium
MIT
本項目將openai/whisper-medium模型轉換為CTranslate2模型格式,可用於高效語音識別。
語音識別 支持多種語言
F
guillaumekln
15.17k
33
Faster Whisper Small
MIT
基於Transformer架構的自動語音識別(ASR)模型,支持多語言轉錄
語音識別 支持多種語言
F
guillaumekln
4,599
15
Faster Whisper Base
MIT
Whisper基礎模型是OpenAI開發的自動語音識別(ASR)模型,支持多種語言的語音轉文字任務。
語音識別 支持多種語言
F
guillaumekln
8,493
10
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase