F

Finetuned Vit Image Text Classifier

由ernie-ai開發
基於ViT架構的圖像分類模型,用於識別圖像中是否包含文本及文本類型(拉丁字母、中文、阿拉伯文)
下載量 45
發布時間 : 2/8/2023

模型概述

該模型是在google/vit-base-patch16-224-in21k基礎上微調的圖像分類器,專門用於文檔文本分類任務,可識別圖像中的文本類型(拉丁字母、中文、阿拉伯文)以及非文本圖像。

模型特點

高準確率文本分類
在測試集上達到90.3%的準確率,能有效區分不同文字類型
基於ViT架構
採用Vision Transformer架構,具有強大的圖像特徵提取能力
多類別識別
可同時識別拉丁字母、中文、阿拉伯文三種文字類型以及非文本圖像

模型能力

圖像分類
文本類型識別
文檔圖像分析

使用案例

文檔處理
多語言文檔分類
自動分類包含不同語言文字的掃描文檔
準確區分拉丁字母、中文和阿拉伯文文檔
圖像內容過濾
從圖像集合中篩選出包含特定語言文本的圖像
OCR預處理
OCR語言識別
在OCR處理前識別文檔中的文字類型
提高後續OCR處理的準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase