visionOCR-3B-061125-GGUFオープンソースOCRモデル - ドキュメント認識、長文理解、数式変換に対応

ホーム

Visionocr 3B 061125 GGUF

prithivMLmodsによって開発

Qwen2.5-VL-3B-Instructをベースに微調整されたビジュアルOCRモデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、数学のLaTeX形式変換に特化しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #ドキュメントレベルのOCR #LaTeX数学認識 #長文脈の視覚理解

ダウンロード数 131

リリース時間 : 6/12/2025

モデル概要

このモデルは、ドキュメントレベルの光学文字認識（OCR）、長文脈の視覚言語理解、および数学のLaTeX形式を含む画像の正確なテキスト変換に最適化されており、様々な入力形式のドキュメントの理解、構造化データ抽出、および視覚推論能力を向上させています。

モデル特徴

ドキュメントレベルのOCR最適化

ドキュメントレベルの光学文字認識タスクに特化して最適化され、テキスト抽出精度を向上させます。

長文脈理解

長文脈の視覚言語の理解能力を強化し、複雑なドキュメントの処理に適しています。

数学LaTeXサポート

数学公式を含む画像をLaTeX形式のテキストに正確に変換できます。

多量化バージョン

BF16から2ビット量化までの複数のバージョンを提供し、さまざまなハードウェア要件に対応します。

モデル能力

ドキュメント画像のテキスト変換

数学公式認識

構造化データ抽出

視覚推論

長文理解

使用事例

ドキュメント処理

スキャンドキュメントのデジタル化

スキャンしたPDFまたは画像を編集可能なテキストに変換します。

元の形式と数学記号を保持します。

学術論文の処理

論文中の数学公式と特殊記号を抽出します。

LaTeX形式に変換します。

教育

数学問題の認識

画像から数学問題と公式を認識します。

編集可能な数学式を生成します。

🚀 visionOCR-3B-061125-GGUF

「visionOCR-3B-061125」モデルは、「Qwen/Qwen2.5-VL-3B-Instruct」をファインチューニングしたバージョンです。このモデルは、「文書レベルの光学文字認識（OCR）」、「長文脈のビジョン言語理解」、および「数学的なLaTeX形式を含む正確な画像からテキストへの変換」に最適化されています。Qwen2.5-VLアーキテクチャをベースに構築されており、様々な入力形式における文書理解、構造化データ抽出、および視覚的推論能力を大幅に向上させています。

🚀 クイックスタート

このモデルは、文書レベルの光学文字認識や長文脈のビジョン言語理解などのタスクに最適化されています。以下のセクションでは、モデルファイルと量子化の使用方法について説明します。

📚 ドキュメント

モデルファイル

ファイル名	サイズ	形式	説明
visionOCR-3B-061125-BF16.gguf	6.18 GB	BF16	ブレイン浮動小数点16ビット
visionOCR-3B-061125-Q6_K.gguf	2.54 GB	Q6_K	6ビット量子化
visionOCR-3B-061125-Q5_K_M.gguf	2.22 GB	Q5_K_M	5ビット量子化、中品質
visionOCR-3B-061125-Q4_K_M.gguf	1.93 GB	Q4_K_M	4ビット量子化、中品質
visionOCR-3B-061125-Q3_K_M.gguf	1.59 GB	Q3_K_M	3ビット量子化、中品質
visionOCR-3B-061125-Q3_K_S.gguf	1.45 GB	Q3_K_S	3ビット量子化、低品質
visionOCR-3B-061125-Q2_K.gguf	1.27 GB	Q2_K	2ビット量子化