Model Selection

低CER

# 低CER

Whisper Finetune Teochew

基於Whisper-medium微調的潮州話（潮汕話）正字識別模型，支持多方言口音的正字轉錄

Safetensors Chinese

基於TrOCR基礎手寫體模型微調而成的泰語和英語光學字符識別模型，擅長處理手寫文本行圖像

Transformers Supports Multiple Languages

該模型用於從表格單元格的文本行圖像中識別手寫文本，特別適用於20世紀30年代芬蘭死亡記錄和人口普查記錄中的手寫文本識別。

Kansallisarkisto

Phoneme Scorer V2 Wav2vec2

基於Wav2Vec2-Base架構的自動語音識別模型，專門用於音素識別，在LJSpeech Phonemes數據集上微調

Transformers English

ct-vikramanantha

Wav2vec2 Base Korean

基於Facebook的wav2vec2-base模型微調而來，專門針對韓語語音識別進行了優化，能夠將韓語語音準確地轉錄為文本。

Transformers Korean

OCR TextInput Base

一個專注於金融領域的圖像轉文本模型，支持英文文本識別，主要用於處理金融文檔中的圖像內容。

Transformers English

Pretrained Trocr Small Vietnamese Nom

一個專注于越南語語音識別的模型，支持高準確率的語音轉文本功能。

Transformers Other

Image Text Captcha V2

基於microsoft/trocr-base-printed微調的印刷體文本識別模型，主要用於驗證碼識別任務

Whisper Small Japanese

該模型是基於openai/whisper-small微調的日語語音識別模型，支持日語語音轉文本任務。

Transformers Japanese

Trocr Base Printed Fr

基於Transformer的法語印刷體OCR模型，填補了TrOCR模型法語版本的空白

圖像生成文本

Transformers French

Wav2vec2 Ljspeech Gruut

基於Wav2Vec2架構的音素識別模型，在LJSpeech Phonemes數據集上微調，用於將語音轉換為音素序列

Transformers English

Whisper Small Cantonese

基於OpenAI Whisper-small微調的粵語語音識別模型，在Common Voice 16.0測試集上CER為7.93

Transformers Supports Multiple Languages

Stt Zh Conformer Transducer Large

這是一個用於轉錄普通話語音的大型Conformer-Transducer模型，參數約1.2億，在AISHELL-2數據集上訓練。

語音識別 Chinese

Stt Zh Citrinet 1024 Gamma 0 25

這是一個用於中文普通話自動語音識別(ASR)的非自迴歸Citrinet模型，擁有約1.4億參數，採用字符編碼方案和CTC損失/解碼。

語音識別 Chinese

Wav2vec2 Large Xlsr 53 Chinese Zh Cn Gpt

基於facebook/wav2vec2-large-xlsr-53在中文(zh-CN)上使用Common Voice數據集進行微調的語音識別模型

Transformers Chinese

Wav2vec2 Large Xlsr 53 Th

這是一個基於wav2vec2-large-xlsr-53模型在泰語通用語音7.0數據集上微調的自動語音識別(ASR)模型。

Transformers Other

Wav2vec2 Bn 300m

基於facebook/wav2vec2-xls-r-300m微調的孟加拉語自動語音識別模型，使用OPENSLR_SLR53數據集訓練

Transformers Other

Tahsin-Mayeesha

基於facebook/wav2vec2-xls-r-300m微調的愛沙尼亞語自動語音識別模型，使用約800小時多樣化數據訓練

Transformers Other

Wav2vec2 Xls R 1b Ro

該模型是基於facebook/wav2vec2-xls-r-1b在羅馬尼亞語Common Voice 7.0數據集上微調的自動語音識別模型。

Transformers Other

Wav2vec2 Xls R 300m Cs Cv8

基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0捷克語數據集上微調的語音識別模型

Transformers Other

Wav2vec2 Xls R 1b Npsc Bokmaal

基於facebook/wav2vec2-xls-r-1b模型在挪威書面語（博克馬爾語）語音數據集上微調的自動語音識別模型

Wav2vec2 Xls R Sl A1

這是一個基於facebook/wav2vec2-xls-r-300m在斯洛文尼亞語(Common Voice 8.0)數據集上微調的自動語音識別(ASR)模型。

Transformers Other

Wav2vec2 Large Xls R 300m Bg D2

基於facebook/wav2vec2-xls-r-300m在保加利亞語數據集上微調的自動語音識別模型

Transformers Other

Xls R 1b Cv 8 Fr

這是一個基於facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - FR數據集上微調的法語自動語音識別模型。

Transformers French

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers English

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase