低WER

# 低WER

Whosper Large V2

Whosper-large-v2是一款專為塞內加爾主要語言沃洛夫語設計的尖端語音識別模型，基於OpenAI的Whisper-large-v2構建，顯著提升了詞錯誤率（WER）和字符錯誤率（CER）。

語音識別支持多種語言

Whisper Hindi2Hinglish Swift

基於Whisper架構優化的印地語-印地英語混合語音識別模型，專為印度口音和噪聲環境優化

Transformers 支持多種語言

Viwhisper Medium

針對越南語語音識別任務優化的Whisper-medium模型，在1308小時越南語數據上微調

Transformers 其他

Parakeet Ctc 0.6b

Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer架構，擁有約6億參數，支持英語語音轉錄。

語音識別英語

Parakeet Rnnt 0.6b

Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 聯合開發的自動語音識別模型，基於 FastConformer 架構，擁有約 6 億參數，專門用於將英語語音轉錄為文本。

語音識別英語

Parakeet Ctc 1.1b

Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer架構，擁有約11億參數，支持英語語音轉錄。

語音識別英語

Whisper Large V3 French

基於OpenAI Whisper-large-v3微調的法語自動語音識別模型，支持大小寫、標點符號和數字預測

Transformers 法語

Asr Whisper Medium Commonvoice Ar

基於CommonVoice阿拉伯語數據集微調的Whisper medium語音識別模型，由SpeechBrain團隊開發

語音識別阿拉伯語

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducer 是一個用於英語自動語音識別(ASR)的高性能模型，採用優化的FastConformer架構和Transducer解碼器，參數規模約6.18億。

語音識別英語

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLarge是一個約6億參數的自動語音識別(ASR)模型，專為英語語音轉錄設計，採用FastConformer架構和CTC損失訓練。

語音識別英語

Whisper Small Cv11 French

基於openai/whisper-small微調的法語自動語音識別模型，訓練數據為Common Voice 11.0法語數據集，支持大小寫和標點符號預測。

Transformers 法語

Wav2vec2 Base Vi Vlsp2020

基於wav2vec2架構的越南語自動語音識別模型，預訓練於13,000小時未標註YouTube音頻，並在250小時標註數據上微調。

Transformers 其他

Stt Rw Conformer Transducer Large

這是一個用於盧旺達語語音識別的Conformer-Transducer大型模型，能將語音轉錄為小寫拉丁字母，支持空格和撇號。

語音識別其他

Stt Es Conformer Transducer Large

這是一個用於西班牙語自動語音識別的大型康福默-傳感器模型，約1.2億參數，在1340小時西班牙語語音數據上訓練。

語音識別西班牙語

Stt De Conformer Transducer Large

這是一個用於德語自動語音識別的大型Conformer-Transducer模型，具有約1.2億參數，支持將德語語音轉錄為文本。

語音識別德語

Stt De Conformer Ctc Large

這是一個用於德語自動語音識別的大規模Conformer-CTC模型，由NVIDIA訓練並在數千小時的德語語音數據上進行優化。

語音識別德語

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

基於facebook/wav2vec2-large-xlsr-53在中文AISHELL-1數據集上微調的語音識別模型，支持中文語音識別任務。

Transformers 中文

Wav2vec2 Large Xlsr 53 German Cv9

這是一個基於Facebook的wav2vec2-large-xlsr-53模型在德語Common Voice 9.0數據集上微調的自動語音識別(ASR)模型。

Transformers 德語

Wav2vec2 Base Vietnamese 160h

基於Wav2vec2的越南語語音識別模型，在160小時越南語語音數據上微調

Transformers 其他

Wav2vec2 Base Da Ft Nst

基於NST數據集微調的丹麥語語音識別模型，支持16kHz採樣率音頻輸入

Transformers 其他

Wav2vec2 Large Xlsr Open Brazilian Portuguese

這是一個針對巴西葡萄牙語微調的 Wav2vec 2.0 模型，使用了多個開放巴西葡萄牙語數據集進行訓練，包括 Common Voice、MLS、CETUC 等。

Transformers 其他

基於巴西葡萄牙語數據集微調的Wav2vec 2.0語音識別模型，支持巴西葡萄牙語自動語音識別任務。

Transformers 其他

Asr Wav2vec2 Commonvoice Fr

基於CommonVoice法語數據集訓練的wav2vec 2.0語音識別模型，使用CTC/Attention架構，無需語言模型

語音識別法語

Wav2vec2 Large Xlsr Turkish

這是一個基於facebook/wav2vec2-large-xlsr-53模型在土耳其語Common Voice數據集上微調的自動語音識別模型，測試WER為21.13%。

語音識別其他

Bp500 Base100k Voxpopuli

針對巴西葡萄牙語優化的語音識別模型，使用7個公開數據集共453小時語音訓練

Transformers 其他

這是一個針對巴西葡萄牙語微調的Wav2vec 2.0模型，使用了多個巴西葡萄牙語數據集進行訓練，在Common Voice測試集上WER為13.6。

Transformers 其他

Wav2vec2 Large Xlsr 53 Esperanto

這是一個基於Facebook的wav2vec2-large-xlsr-53模型微調的世界語(Esperanto)語音識別模型，使用Common Voice數據集訓練。

語音識別其他

Wav2vec2 Large Xlsr Open Brazilian Portuguese V2

這是一個針對巴西葡萄牙語優化的Wav2vec2模型，基於多個開放數據集訓練，用於自動語音識別任務。

Transformers 其他

Wav2vec2 Large Xlsr 53 Es

基於Facebook的wav2vec2-large-xlsr-53模型，在西班牙語Common Voice數據集上微調的語音識別模型，測試WER為10.50%。

Transformers 西班牙語

Wav2vec2 Large Xlsr Sundanese

基於facebook/wav2vec2-large-xlsr-53微調的巽他語語音識別模型，訓練數據來自OpenSLR高質量TTS數據集

語音識別其他

Wav2vec2 Large Xlsr Eo

基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice數據集對世界語進行微調的語音識別模型。

語音識別其他

Wav2vec2 Base Cynthia Tedlium 2500 V2

該模型是基於facebook/wav2vec2-base-960h在TED-LIUM數據集上微調的語音識別模型，在評估集上達到20.33%的詞錯誤率。

Wav2vec2 Live Japanese

基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型，支持平假名輸出

Transformers 日語

該模型是基於facebook/wav2vec2-xls-r-300m在加利西亞語數據集上微調的自動語音識別模型，在Common Voice 8.0測試集上取得了11.31%的WER。

Transformers 其他

Xls R Nl V1 Cv8 Lm

這是一個基於XLS-R架構的自動語音識別模型，專門針對荷蘭語和佛蘭芒語優化，結合了5-gram語言模型以提高識別準確率。

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase