低字符错误率

# 低字符错误率

Phi 4 Multimodal Instruct Ko Asr

基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型，在zeroth-korean和fleurs数据集上表现优异。

文本生成音频

Transformers 韩语

Whisper Large V3 Cantonese

基于Whisper v3微调的粤语自动语音识别模型，在Common Voice 17数据集上训练

Transformers 其他

Japanese Wav2vec2 Large Rs35kh

基于wav2vec 2.0 Large架构，在大型日语ASR语料库ReazonSpeech v2.0上微调而成的日语自动语音识别模型

Transformers 日语

reazon-research

基于mHuBERT-147基础模型训练的乌克兰语自动语音识别模型，支持乌克兰语语音转文本任务。

语音识别其他

Trocr Base Handwritten OCR Handwriting Recognition V2

基于微软trocr-base-handwritten微调的手写体OCR模型，在评估集上字符错误率(CER)为0.0360

Transformers 英语

Trocr Base Printed License Plates Ocr

基于microsoft/trocr-base-printed微调的OCR模型，专门用于车牌文本识别

Transformers 英语

Trocr Base Printed Captcha Ocr

基于microsoft/trocr-base-printed微调的验证码OCR模型，用于从图像验证码中提取文本。

Transformers 英语

Whisper Large V2 Mn 13

基于OpenAI的whisper-large-v2模型在蒙古语数据集上微调的语音识别模型，支持蒙古语自动语音识别任务。

Transformers 其他

Wav2vec2 Large Xlsr 53 Cantonese

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice语料库8.0版对粤语进行微调的语音识别模型

Transformers 其他

Wav2vec2 Xls R 1b Italian Doc4lm 5gram

基于XLS-R 10亿参数模型微调的意大利语语音识别模型，支持带语言模型的识别

Transformers 其他

radiogroup-crits

Wav2vec2 Xlsr 300m Finnish Lm

基于facebook/wav2vec2-xls-r-300m微调的芬兰语自动语音识别模型，使用275.6小时芬兰语标注数据训练，支持与KenLM语言模型配合使用。

Transformers 其他

Wav2vec2 Large Xls R 1b Indonesian

基于facebook/wav2vec2-xls-r-1b在Common Voice印尼语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Es

该模型是基于facebook/wav2vec2-xls-r-300m在COMMON_VOICE - ES数据集上微调的西班牙语自动语音识别模型。

Transformers 西班牙语

Wav2vec2 Large Xlsr 53 Russian

基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型，支持16kHz采样率的语音输入

语音识别其他

Wav2vec2 Xls R 300m Hy

基于facebook/wav2vec2-xls-r-300m模型在亚美尼亚语数据集上微调的自动语音识别(ASR)模型，支持亚美尼亚语语音转文字任务。

Transformers 其他

Wav2vec2 Large Xlsr 53 Greek

基于facebook/wav2vec2-large-xlsr-53模型微调的希腊语语音识别模型，支持16kHz采样率的语音输入。

Transformers 其他

Wav2vec2 Large Xlsr 53 Finnish

基于facebook/wav2vec2-large-xlsr-53模型微调的芬兰语自动语音识别模型，支持16kHz采样率的语音输入

Transformers 其他

Wav2vec2 Large Xlsr 53 Hungarian

这是一个针对匈牙利语语音识别任务微调的XLSR-53大模型，基于Common Voice和CSS10数据集训练。

语音识别其他

Wav2vec2 Large Xlsr 53 Persian

针对波斯语优化的XLSR-53大模型语音识别系统，基于facebook/wav2vec2-large-xlsr-53架构微调

语音识别其他

Wav2vec2 Large Xlsr 53 Estonian

基于facebook/wav2vec2-large-xlsr-53模型，使用通用语音数据集对爱沙尼亚语进行微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 1b Italian Robust

基于facebook/wav2vec2-xls-r-1b在Common Voice 7和Libri Speech数据集上微调的意大利语自动语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Polish

针对波兰语优化的XLSR-53大模型语音识别系统，基于facebook/wav2vec2-large-xlsr-53微调，支持波兰语自动语音识别

语音识别其他

Wav2vec2 Xlsr 1b Finnish

基于Facebook的wav2vec2-xls-r-1b模型针对芬兰语自动语音识别(ASR)进行微调的版本，使用259.57小时芬兰语标注语音数据训练

Transformers 其他

XLSR 300M Nynorsk

基于XLSR-300M架构的新挪威语自动语音识别模型，在NPSC数据集上训练，具有较低的词错误率和字符错误率。

Wav2vec2 Large Xls R 300m Bg V1

这是一个基于facebook/wav2vec2-xls-r-300m模型在保加利亚语语音数据集上微调的自动语音识别(ASR)模型。

Transformers 其他

Xlsr300m Cv 7.0 Nl Lm

XLS-R-300M 是一个基于自动语音识别（ASR）的模型，专门针对荷兰语优化，在 Common Voice 8 荷兰语数据集上训练。

Transformers 其他

Xlsr 300m CV 8.0 50 EP New Params Nl

这是一个基于XLS-R架构的300M参数自动语音识别(ASR)模型，专门针对荷兰语优化，在Common Voice 8.0数据集上训练。

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase