Whosper Large V2
Apache-2.0
Whosper-large-v2是一款專為塞內加爾主要語言沃洛夫語設計的尖端語音識別模型,基於OpenAI的Whisper-large-v2構建,顯著提升了詞錯誤率(WER)和字符錯誤率(CER)。
語音識別 支持多種語言
W
CAYTU
449
6
Whisper Hindi2Hinglish Swift
Apache-2.0
基於Whisper架構優化的印地語-印地英語混合語音識別模型,專為印度口音和噪聲環境優化
語音識別
Transformers 支持多種語言

W
Oriserve
496
6
Viwhisper Medium
MIT
針對越南語語音識別任務優化的Whisper-medium模型,在1308小時越南語數據上微調
語音識別
Transformers 其他

V
NhutP
139
4
Parakeet Ctc 0.6b
Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer架構,擁有約6億參數,支持英語語音轉錄。
語音識別 英語
P
nvidia
6,528
13
Parakeet Rnnt 0.6b
Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 聯合開發的自動語音識別模型,基於 FastConformer 架構,擁有約 6 億參數,專門用於將英語語音轉錄為文本。
語音識別 英語
P
nvidia
92.27k
8
Parakeet Ctc 1.1b
Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer架構,擁有約11億參數,支持英語語音轉錄。
語音識別 英語
P
nvidia
14.78k
29
Whisper Large V3 French
MIT
基於OpenAI Whisper-large-v3微調的法語自動語音識別模型,支持大小寫、標點符號和數字預測
語音識別
Transformers 法語

W
bofenghuang
771
28
Asr Whisper Medium Commonvoice Ar
Apache-2.0
基於CommonVoice阿拉伯語數據集微調的Whisper medium語音識別模型,由SpeechBrain團隊開發
語音識別 阿拉伯語
A
speechbrain
17
2
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducer 是一個用於英語自動語音識別(ASR)的高性能模型,採用優化的FastConformer架構和Transducer解碼器,參數規模約6.18億。
語音識別 英語
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLarge是一個約6億參數的自動語音識別(ASR)模型,專為英語語音轉錄設計,採用FastConformer架構和CTC損失訓練。
語音識別 英語
S
nvidia
216
2
Whisper Small Cv11 French
Apache-2.0
基於openai/whisper-small微調的法語自動語音識別模型,訓練數據為Common Voice 11.0法語數據集,支持大小寫和標點符號預測。
語音識別
Transformers 法語

W
bofenghuang
266
4
Wav2vec2 Base Vi Vlsp2020
基於wav2vec2架構的越南語自動語音識別模型,預訓練於13,000小時未標註YouTube音頻,並在250小時標註數據上微調。
語音識別
Transformers 其他

W
nguyenvulebinh
262
3
Stt Rw Conformer Transducer Large
這是一個用於盧旺達語語音識別的Conformer-Transducer大型模型,能將語音轉錄為小寫拉丁字母,支持空格和撇號。
語音識別 其他
S
nvidia
116
1
Stt Es Conformer Transducer Large
這是一個用於西班牙語自動語音識別的大型康福默-傳感器模型,約1.2億參數,在1340小時西班牙語語音數據上訓練。
語音識別 西班牙語
S
nvidia
708
4
Stt De Conformer Transducer Large
這是一個用於德語自動語音識別的大型Conformer-Transducer模型,具有約1.2億參數,支持將德語語音轉錄為文本。
語音識別 德語
S
nvidia
66
6
Stt De Conformer Ctc Large
這是一個用於德語自動語音識別的大規模Conformer-CTC模型,由NVIDIA訓練並在數千小時的德語語音數據上進行優化。
語音識別 德語
S
nvidia
132
4
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在中文AISHELL-1數據集上微調的語音識別模型,支持中文語音識別任務。
語音識別
Transformers 中文

W
qinyue
22
6
Wav2vec2 Large Xlsr 53 German Cv9
Apache-2.0
這是一個基於Facebook的wav2vec2-large-xlsr-53模型在德語Common Voice 9.0數據集上微調的自動語音識別(ASR)模型。
語音識別
Transformers 德語

W
oliverguhr
98
1
Wav2vec2 Base Vietnamese 160h
基於Wav2vec2的越南語語音識別模型,在160小時越南語語音數據上微調
語音識別
Transformers 其他

W
khanhld
356
10
Wav2vec2 Base Da Ft Nst
Apache-2.0
基於NST數據集微調的丹麥語語音識別模型,支持16kHz採樣率音頻輸入
語音識別
Transformers 其他

W
Alvenir
15
3
Wav2vec2 Large Xlsr Open Brazilian Portuguese
Apache-2.0
這是一個針對巴西葡萄牙語微調的 Wav2vec 2.0 模型,使用了多個開放巴西葡萄牙語數據集進行訓練,包括 Common Voice、MLS、CETUC 等。
語音識別
Transformers 其他

W
lgris
395
9
Bp400 Xlsr
Apache-2.0
基於巴西葡萄牙語數據集微調的Wav2vec 2.0語音識別模型,支持巴西葡萄牙語自動語音識別任務。
語音識別
Transformers 其他

B
lgris
55
3
Asr Wav2vec2 Commonvoice Fr
Apache-2.0
基於CommonVoice法語數據集訓練的wav2vec 2.0語音識別模型,使用CTC/Attention架構,無需語言模型
語音識別 法語
A
speechbrain
250
10
Wav2vec2 Large Xlsr Turkish
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型在土耳其語Common Voice數據集上微調的自動語音識別模型,測試WER為21.13%。
語音識別 其他
W
cahya
61
2
Bp500 Base100k Voxpopuli
Apache-2.0
針對巴西葡萄牙語優化的語音識別模型,使用7個公開數據集共453小時語音訓練
語音識別
Transformers 其他

B
lgris
23
1
Bp500 Xlsr
Apache-2.0
這是一個針對巴西葡萄牙語微調的Wav2vec 2.0模型,使用了多個巴西葡萄牙語數據集進行訓練,在Common Voice測試集上WER為13.6。
語音識別
Transformers 其他

B
lgris
21
1
Wav2vec2 Large Xlsr 53 Esperanto
Apache-2.0
這是一個基於Facebook的wav2vec2-large-xlsr-53模型微調的世界語(Esperanto)語音識別模型,使用Common Voice數據集訓練。
語音識別 其他
W
cpierse
8,681
6
Wav2vec2 Large Xlsr Open Brazilian Portuguese V2
Apache-2.0
這是一個針對巴西葡萄牙語優化的Wav2vec2模型,基於多個開放數據集訓練,用於自動語音識別任務。
語音識別
Transformers 其他

W
lgris
1,825
18
Wav2vec2 Large Xlsr 53 Es
Apache-2.0
基於Facebook的wav2vec2-large-xlsr-53模型,在西班牙語Common Voice數據集上微調的語音識別模型,測試WER為10.50%。
語音識別
Transformers 西班牙語

W
pcuenq
147
0
Wav2vec2 Large Xlsr Sundanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的巽他語語音識別模型,訓練數據來自OpenSLR高質量TTS數據集
語音識別 其他
W
cahya
339
0
Wav2vec2 Large Xlsr Eo
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型,使用Common Voice數據集對世界語進行微調的語音識別模型。
語音識別 其他
W
gchhablani
23
1
Wav2vec2 Base Cynthia Tedlium 2500 V2
Apache-2.0
該模型是基於facebook/wav2vec2-base-960h在TED-LIUM數據集上微調的語音識別模型,在評估集上達到20.33%的詞錯誤率。
語音識別
Transformers

W
huyue012
25
0
Wav2vec2 Live Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型,支持平假名輸出
語音識別
Transformers 日語

W
ttop324
20
4
Galician Xlsr
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在加利西亞語數據集上微調的自動語音識別模型,在Common Voice 8.0測試集上取得了11.31%的WER。
語音識別
Transformers 其他

G
Akashpb13
110
1
Xls R Nl V1 Cv8 Lm
這是一個基於XLS-R架構的自動語音識別模型,專門針對荷蘭語和佛蘭芒語優化,結合了5-gram語言模型以提高識別準確率。
語音識別
Transformers 其他

X
FremyCompany
14
3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98