ファインチューニングされたVit画像 - テキスト分類器オープンソースモデル - 画像のテキストとテキストのタイプを正確に識別

ホーム

Finetuned Vit Image Text Classifier

ernie-aiによって開発

ViTアーキテクチャに基づく画像分類モデルで、画像にテキストが含まれているかどうか、およびテキストの種類（ラテン文字、中国語、アラビア語）を識別するために使用されます

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #多言語テキスト認識 #ドキュメント画像分類 #高精度ViT

ダウンロード数 45

リリース時間 : 2/8/2023

モデル概要

このモデルはgoogle/vit-base-patch16-224-in21kをベースにファインチューニングした画像分類器で、ドキュメントテキスト分類タスクに特化しており、画像内のテキストタイプ（ラテン文字、中国語、アラビア語）および非テキスト画像を識別できます。

モデル特徴

高精度テキスト分類

テストセットで90.3%の精度を達成し、異なる文字タイプを効果的に区別できます

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、強力な画像特徴抽出能力を備えています

マルチカテゴリ認識

ラテン文字、中国語、アラビア語の3種類の文字タイプと非テキスト画像を同時に識別できます

モデル能力

画像分類

テキストタイプ識別

ドキュメント画像分析

使用事例

ドキュメント処理

多言語ドキュメント分類

異なる言語のテキストを含むスキャンされたドキュメントを自動分類

ラテン文字、中国語、アラビア語のドキュメントを正確に区別

画像コンテンツフィルタリング

画像コレクションから特定の言語のテキストを含む画像を選別

OCR前処理

OCR言語識別

OCR処理前にドキュメント内の文字タイプを識別

後続のOCR処理の精度を向上

学習損失	エポック	ステップ	検証損失	精度
0.2719	2.08	100	0.4120	0.8657
0.1027	4.17	200	0.3907	0.8881
0.0723	6.25	300	0.3107	0.9030

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Finetuned Vit Image Text Classifier

モデル概要

モデル特徴

モデル能力

使用事例

🚀 finetuned-vit-doc-text-classifer

🚀 クイックスタート

📚 ドキュメント

モデルの説明

学習と評価データ

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス