Q

Qari OCR V0.3 VL 2B Instruct

NAMAA-Spaceによって開発
QARI-OCR v0.3は、アラビア語の構造化文書理解に特化した光学文字認識ビジョン言語モデルで、Qwen2-VL-2B-Instructをベースに構築されており、文書のレイアウトと形式を保持することに長けています。
ダウンロード数 1,016
リリース時間 : 4/10/2025

モデル概要

このモデルは、アラビア語の光学文字認識に特化しており、構造化文書の処理に特に長けており、HTMLタグ、文書のレイアウト、アラビア語の全音符(tashkeel)を保持することができます。

モデル特徴

レイアウト感知認識
HTML/Markdownタグを通じて文書構造を保持
全音符対応
アラビア語の音符(tashkeel)を正確に認識
多フォント処理
12種類の異なるアラビアフォント(14px - 100px)で訓練
構造優先設計
見出し、本文、複雑なレイアウトを含む文書に対して最適化
効率的な訓練
単一GPUで10,000サンプルを使用して11時間で訓練可能
堅牢な性能
低解像度や損傷した画像を処理できる

モデル能力

アラビア語テキスト認識
文書レイアウト理解
HTML/Markdown構造保持
手書きテキスト認識(初期能力)

使用事例

文書処理
アラビア語文書のデジタル化
紙のアラビア語文書をデジタル形式に変換し、元のレイアウトと形式を保持
HTML/Markdown構造を保持した高忠実度のテキスト変換
学術文献処理
複雑なレイアウトと全音符を含むアラビア語学術文献を処理
テキスト内容と構造を正確に認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase