F

Finetuned Vit Image Text Classifier

ernie-aiによって開発
ViTアーキテクチャに基づく画像分類モデルで、画像にテキストが含まれているかどうか、およびテキストの種類(ラテン文字、中国語、アラビア語)を識別するために使用されます
ダウンロード数 45
リリース時間 : 2/8/2023

モデル概要

このモデルはgoogle/vit-base-patch16-224-in21kをベースにファインチューニングした画像分類器で、ドキュメントテキスト分類タスクに特化しており、画像内のテキストタイプ(ラテン文字、中国語、アラビア語)および非テキスト画像を識別できます。

モデル特徴

高精度テキスト分類
テストセットで90.3%の精度を達成し、異なる文字タイプを効果的に区別できます
ViTアーキテクチャベース
Vision Transformerアーキテクチャを採用し、強力な画像特徴抽出能力を備えています
マルチカテゴリ認識
ラテン文字、中国語、アラビア語の3種類の文字タイプと非テキスト画像を同時に識別できます

モデル能力

画像分類
テキストタイプ識別
ドキュメント画像分析

使用事例

ドキュメント処理
多言語ドキュメント分類
異なる言語のテキストを含むスキャンされたドキュメントを自動分類
ラテン文字、中国語、アラビア語のドキュメントを正確に区別
画像コンテンツフィルタリング
画像コレクションから特定の言語のテキストを含む画像を選別
OCR前処理
OCR言語識別
OCR処理前にドキュメント内の文字タイプを識別
後続のOCR処理の精度を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase