高精度识别

# 高精度识别

Korean PP OCRv3 Mobile Rec

超轻量级韩语文本行识别模型，支持韩语和数字字符识别，平均准确率60.21%。

文字识别支持多种语言

Latin PP OCRv3 Mobile Rec

PaddleOCR团队开发的超轻量级拉丁语文本行识别模型，支持拉丁语和数字字符识别。

文字识别支持多种语言

Arabic PP OCRv3 Mobile Rec

PaddleOCR团队开发的超轻量级阿拉伯字母识别模型，支持阿拉伯字母和数字字符识别。

文字识别支持多种语言

Hicode R1 Distill Gemma 12B Q8.GGUF

一个基于Apache-2.0许可的图像文本转文本模型，能够从图像中提取文本信息并转换为可编辑的文本格式。

图像生成文本

Medai Resnet50 Brain

ResNet-50 是一个深度残差网络，由微软研究院开发，广泛用于图像分类任务。

Roberta Base Ai Text Detection V1

基于RoBERTa-base微调的模型，用于检测AI生成的英文文本。

Transformers 英语

Bert Large Uncased Merged

这是一个用于钓鱼攻击检测的数据集，主要用于训练BERT模型识别钓鱼网站。

Transformers 英语

Nicpras Finetuned Yolo

这是一个基于YOLOv3架构进行微调的目标检测模型，专为特定场景下的目标识别任务优化

YOLOv8 是 Ultralytics 开发的一个高效的目标检测模型，基于 YOLO (You Only Look Once) 架构，适用于实时目标检测任务。

Transformers 英语

Plant Identification Vit

基于Google Vision Transformer (ViT)架构微调的植物识别模型，在评估集上达到80.96%的准确率

Tiny Random Internvl2

专注于将图像中的文本信息提取并转化为可编辑的文本内容

Videomae Large Finetuned Deepfake Subset

基于MCG-NJU/videomae-large模型在深度伪造检测挑战赛数据集上微调的版本，用于视频深度伪造检测。

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

基于Wav2Vec2 Large XLSR-53模型微调的语音情感识别系统，能够识别7种常见情感

基于Keras 3.x训练的恶意SQL检测模型，能识别多种SQL注入攻击向量

文本分类英语

YOLOv10是一种实时目标检测模型，通过消除非极大值抑制（NMS）等后处理步骤，实现了高效且无额外开销的目标检测。

Detr Face Detection

一个基于creativeml-openrail-m许可证的人脸检测模型，支持英文语言，主要用于目标检测任务。

Transformers 英语

YOLOv10是一种实时端到端目标检测模型，具有高效的推理速度和较高的检测精度。

YOLOv10是一种实时端到端目标检测模型，具有高效的延迟-精度和尺寸-精度权衡。

YOLOv10是实时端到端目标检测模型，提供高效的检测性能和精度平衡。

YOLOv10是清华大学MIG实验室开发的高效实时目标检测模型，提供端到端检测能力。

Trocr Base Finetune Numbers

TrOCR 是一个基于Transformer的光学字符识别模型，用于从图像中提取文本内容。

图像生成文本

Transformers 英语

Trocr Base Plate Number

一个用于识别车辆牌照的视觉模型示例，能够从图片中提取车牌号码。

MAGE是一个用于检测开放环境下机器生成文本的模型，旨在识别由AI生成的文本内容。

大型语言模型

Xlm Roberta Base Language Detection ONNX

基于XLM-RoBERTa的多语言检测模型，能够识别文本的语言类别。

Donut Cn Invoice

一个专注于中文发票识别的AI模型，能够准确提取发票中的关键信息。

大型语言模型

Transformers 中文

SMS Spam Detection BertForSequenceClassification

使用BERT进行微调的短信分类模型，用于区分垃圾信息和非垃圾信息。

Transformers 英语

Convnextv2 Large DogBreed

该模型是基于facebook/convnextv2-large-22k-224在狗品种分类数据集上微调的版本，在评估集上准确率达到91.39%。

Trocr Base Fa V2

这是一个基于Transformer的OCR模型，专门用于识别波斯语文本图像。

文字识别其他

Fashion Images Gender Age Vit Large Patch16 224 In21k V3

该模型是基于Google的ViT-Large架构在时尚图像性别年龄分类数据集上微调的视觉Transformer模型，在评估集上取得了99.6%的准确率。

Image2ingredients

一个能够将图像内容转换为文本描述的模型，适用于多种视觉理解任务。

图像生成文本

Plant Vit Model 1

基于ViT架构的植物图像分类模型，在未知数据集上微调后达到99.95%的验证准确率

Detr Resnet 101

基于Transformer架构的端到端目标检测模型，结合ResNet-101特征提取器

一个用于叶片状态分类的视觉模型，能够准确识别和分析植物叶片的健康状况。

My Awesome Food Model

基于Google的ViT模型在food101数据集上微调的食品分类模型

基于Google Vision Transformer (ViT)架构的食品图像分类模型，在Food101数据集上微调，准确率达90.9%

Microsoft Resnet 50 Cartoon Face Recognition

基于microsoft/resnet-50微调的卡通人脸识别模型，在图像分类任务上表现良好。

My Awesome Food Model

基于ViT架构的食品图像分类模型，在Food101数据集上微调，准确率达89.7%

Convnext Tiny 224 Finetuned Eurosat Vitconfig Test

该模型是基于图像文件夹数据集对ConvNeXt-Tiny进行微调的版本，适用于图像分类任务。

Vit Base Highways 2

基于google/vit-base-patch16-224-in21k微调的视觉Transformer模型，在未知数据集上达到70%准确率

Autotrain Dogs And Cats 1527055142

使用AutoTrain训练的二元分类模型，能够准确区分猫和狗的图片

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase