Qari-OCR-0.3オープンソースモデル - 無料でデプロイ可能、画像中のアラビア文字を直接認識

ホーム

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged

NAMAA-Spaceによって開発

アラビア語の光学文字認識（OCR）に特化して設計されたビジュアル言語モデルで、画像内のアラビア語文字を直接認識できます。

画像生成テキスト

Transformers

#アラビア語OCR #マルチモーダル大規模モデル #画像文字認識

ダウンロード数 467

リリース時間 : 4/10/2025

モデル概要

このモデルはQwen2 - VL - 2B - Instructをベースに微調整され、アラビア語の光学文字認識タスクに特化しており、効率的な画像文字認識ソリューションを提供します。

モデル特徴

アラビア語専用OCR

アラビア語文字認識に最適化され、高精度な認識能力を提供します。

ビジュアル言語モデル

視覚と言語理解能力を組み合わせ、画像から直接文字を認識します。

効率的なソリューション

アラビア語処理分野に対して、迅速かつ正確な文字認識ソリューションを提供します。

モデル能力

アラビア語画像文字認識

マルチモーダル文字理解

高精度OCR

使用事例

文書デジタル化

アラビア語文書スキャン

紙のアラビア語文書を編集可能な電子テキストに変換します。

高忠実度の文字変換

画像文字抽出

アラビア語画像文字認識

アラビア語を含む自然画像から文字内容を抽出します。

正確な文字認識結果

🚀 モデルIDのモデルカード

このモデルは、アラビア語の光学文字認識（OCR）を目的として設計されています。

🚀 クイックスタート

以下のコードを使用して、このモデルを使い始めることができます。

# コード情報は必要な追加情報がありません
[More Information Needed]

✨ 主な機能

このモデルは、画像内のアラビア語のテキストを直接認識することができます。

📚 ドキュメント

モデルの詳細

モデルの説明

これは、Hubに公開された🤖 transformersモデルのモデルカードです。このモデルカードは自動生成されています。

開発者: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
資金提供元 [任意]: [必要な追加情報]
共有者 [任意]: [必要な追加情報]
モデルの種類: OCR用のビジョン言語モデル
言語 (NLP): アラビア語
ライセンス: [必要な追加情報]
ファインチューニング元のモデル [任意]: Qwen2-VL-2B-Instruct

モデルのソース [任意]

リポジトリ: [必要な追加情報]
論文: QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
デモ [任意]: [必要な追加情報]

モデルの使用方法

直接使用

このモデルは、画像内のアラビア語のテキストを直接認識するために使用できます。

下流の使用 [任意]

[必要な追加情報]

想定外の使用

このモデルはアラビア語用に特別に設計されており、他の言語では性能が低下する可能性があります。

バイアス、リスク、および制限事項

[必要な追加情報]

推奨事項

ユーザー（直接ユーザーと下流ユーザーの両方）は、このモデルのリスク、バイアス、および制限事項を認識する必要があります。さらなる推奨事項については、追加情報が必要です。

トレーニングの詳細

トレーニングデータ

特殊な合成データセットでトレーニングされています。

トレーニング手順

前処理 [任意]

[必要な追加情報]

トレーニングハイパーパラメータ

トレーニング方式: [必要な追加情報]

速度、サイズ、時間 [任意]

[必要な追加情報]

評価

テストデータ、要因、およびメトリクス

テストデータ

[必要な追加情報]

要因

[必要な追加情報]

メトリクス

[必要な追加情報]

結果

[必要な追加情報]

概要

モデルの検証 [任意]

[必要な追加情報]

環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定することができます。

ハードウェアの種類: [必要な追加情報]
使用時間: [必要な追加情報]
クラウドプロバイダー: [必要な追加情報]
コンピュートリージョン: [必要な追加情報]
排出された炭素量: [必要な追加情報]

技術仕様 [任意]

モデルアーキテクチャと目的

[必要な追加情報]

コンピュートインフラストラクチャ

ハードウェア

[必要な追加情報]

ソフトウェア

[必要な追加情報]

引用 [任意]

BibTeX

@misc{QariOCR2025,
  title={QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation},
  author={Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila},
  year={2025},
  archivePrefix={arXiv},
  url={https://arxiv.org/abs/2506.02295},
  note={Accessed: 2025-03-03}
}