finetuned-vit-image-text-classifier開源模型 - 精準識別圖像文本及文本類型

首頁

Finetuned Vit Image Text Classifier

由ernie-ai開發

基於ViT架構的圖像分類模型，用於識別圖像中是否包含文本及文本類型（拉丁字母、中文、阿拉伯文）

圖像分類

Transformers

開源協議:Apache-2.0 #多語種文本識別 #文檔圖像分類 #高準確率ViT

下載量 45

發布時間 : 2/8/2023

模型概述

該模型是在google/vit-base-patch16-224-in21k基礎上微調的圖像分類器，專門用於文檔文本分類任務，可識別圖像中的文本類型（拉丁字母、中文、阿拉伯文）以及非文本圖像。

模型特點

高準確率文本分類

在測試集上達到90.3%的準確率，能有效區分不同文字類型

基於ViT架構

採用Vision Transformer架構，具有強大的圖像特徵提取能力

多類別識別

可同時識別拉丁字母、中文、阿拉伯文三種文字類型以及非文本圖像

模型能力

圖像分類

文本類型識別

文檔圖像分析

使用案例

文檔處理

多語言文檔分類

自動分類包含不同語言文字的掃描文檔

準確區分拉丁字母、中文和阿拉伯文文檔

圖像內容過濾

從圖像集合中篩選出包含特定語言文本的圖像

OCR預處理

OCR語言識別

在OCR處理前識別文檔中的文字類型

提高後續OCR處理的準確性

屬性	詳情
學習率	0.0002
訓練批次大小	16
評估批次大小	8
隨機種子	42
優化器	Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型	線性
訓練輪數	8
混合精度訓練	原生自動混合精度（Native AMP）

訓練損失	輪數	步數	驗證損失	準確率
0.2719	2.08	100	0.4120	0.8657
0.1027	4.17	200	0.3907	0.8881
0.0723	6.25	300	0.3107	0.9030

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Finetuned Vit Image Text Classifier

模型概述

模型特點

模型能力

使用案例

🚀 微調視覺Transformer文檔文本分類器

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型描述

訓練和評估數據

訓練超參數

訓練結果

框架版本

📄 許可證