Qwen2-VL-OCR-2B-Instruct-GGUFオープンソースマルチモーダルモデル - OCR、画像からのテキスト変換、手書き認識を実現

ホーム

Qwen2 VL OCR 2B Instruct GGUF

prithivMLmodsによって開発

Qwen/Qwen2-VL-2B-Instructをファインチューニングしたマルチモーダルモデルで、OCR、画像からテキストへの変換、LaTeX数式解決、手書き認識に最適化

画像生成テキスト複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダルOCR #手書き認識 #数式解析

ダウンロード数 142

リリース時間 : 5/15/2025

モデル概要

視覚とテキスト理解を組み合わせた対話型モデルで、光学文字認識、手書きテキスト抽出、数式解析などの混合タスクをサポート

モデル特徴

マルチモーダルOCR能力

印刷体、手書き体、数式の混合認識タスクを処理可能

量子化サポート

1ビットから8ビットまでの複数量子化バージョンを提供し、様々なハードウェア要件に対応

対話型インタラクション

視覚入力に基づく質疑応答型インタラクションをサポート

モデル能力

光学文字認識(OCR)

手書きテキスト抽出

LaTeX数式解析

画像からテキストへの変換

視覚的質問応答(VQA)

使用事例

文書デジタル化

印刷文書OCR

スキャン画像や写真中の印刷文字を編集可能なテキストに変換

複雑なレイアウト認識をサポート

手書きメモ転写

乱雑な手書き内容を認識しデジタルテキストに変換

非標準的な筆跡に最適化

教育支援

数学課題解析

手書きまたは印刷された数学問題を認識しLaTeX形式で解析

数式記号認識をサポート

🚀 Qwen2-VL-OCR-2B-Instruct-GGUF [ VL / OCR ]

Qwen2-VL-OCR-2B-Instructモデルは、光学文字認識（OCR）、画像からテキストへの変換、LaTeX形式での数学問題解決、および乱雑な手書き文字のOCRなどのタスクに特化した、Qwen/Qwen2-VL-2B-Instructの微調整バージョンです。このモデルは、会話型アプローチと視覚およびテキスト理解を統合して、マルチモーダルタスクを効果的に処理します。

✨ 主な機能

光学文字認識（OCR）
画像からテキストへの変換
LaTeX形式での数学問題解決
乱雑な手書き文字のOCR

📚 ドキュメント

モデルファイル (Qwen2-VL-OCR-2B-Instruct, GGUF)

ファイル名	サイズ	量子化	形式	説明
`Qwen2-VL-OCR-2B-Instruct.f16.gguf`	3.09 GB	FP16	GGUF	完全精度 (float16)
`Qwen2-VL-OCR-2B-Instruct.Q2_K.gguf`	676 MB	Q2_K	GGUF	2ビット量子化
`Qwen2-VL-OCR-2B-Instruct.Q3_K_L.gguf`	880 MB	Q3_K_L	GGUF	3ビット量子化 (K Lバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q3_K_M.gguf`	824 MB	Q3_K_M	GGUF	3ビット量子化 (K Mバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q3_K_S.gguf`	761 MB	Q3_K_S	GGUF	3ビット量子化 (K Sバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q4_K_M.gguf`	986 MB	Q4_K_M	GGUF	4ビット量子化 (K Mバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q4_K_S.gguf`	940 MB	Q4_K_S	GGUF	4ビット量子化 (K Sバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q5_K_M.gguf`	1.13 GB	Q5_K_M	GGUF	5ビット量子化 (K Mバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q5_K_S.gguf`	1.1 GB	Q5_K_S	GGUF	5ビット量子化 (K Sバリアント)
`Qwen2-VL-OCR-2B-Instruct.Q6_K.gguf`	1.27 GB	Q6_K	GGUF	6ビット量子化
`Qwen2-VL-OCR-2B-Instruct.Q8_0.gguf`	1.65 GB	Q8_0	GGUF	8ビット量子化

i1量子化バリアント

ファイル名	サイズ	量子化	説明
`Qwen2-VL-OCR-2B-Instruct.i1-IQ1_M.gguf`	464 MB	i1-IQ1_M	i1 1ビットミディアム
`Qwen2-VL-OCR-2B-Instruct.i1-IQ1_S.gguf`	437 MB	i1-IQ1_S	i1 1ビットスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_M.gguf`	601 MB	i1-IQ2_M	i1 2ビットミディアム
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_S.gguf`	564 MB	i1-IQ2_S	i1 2ビットスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_XS.gguf`	550 MB	i1-IQ2_XS	i1 2ビットエクストラスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_XXS.gguf`	511 MB	i1-IQ2_XXS	i1 2ビットエクストラエクストラスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_M.gguf`	777 MB	i1-IQ3_M	i1 3ビットミディアム
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_S.gguf`	762 MB	i1-IQ3_S	i1 3ビットスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_XS.gguf`	732 MB	i1-IQ3_XS	i1 3ビットエクストラスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_XXS.gguf`	669 MB	i1-IQ3_XXS	i1 3ビットエクストラエクストラスモール
`Qwen2-VL-OCR-2B-Instruct.i1-IQ4_NL.gguf`	936 MB	i1-IQ4_NL	i1 4ビットノーレイヤーノルム量子化
`Qwen2-VL-OCR-2B-Instruct.i1-IQ4_XS.gguf`	896 MB	i1-IQ4_XS	i1 4ビットエクストラスモール
`Qwen2-VL-OCR-2B-Instruct.i1-Q4_0.gguf`	938 MB	i1-Q4_0	i1 4ビット従来型量子化
`Qwen2-VL-OCR-2B-Instruct.i1-Q4_1.gguf`	1.02 GB	i1-Q4_1	i1 4ビット従来型バリアント

メタデータ

ファイル名	サイズ	説明
`.gitattributes`	3.37 kB	Git LFSトラッキングファイル
`config.json`	34 B	設定プレースホルダー
`README.md`	672 B	モデルのREADME

量子化モデルの使用方法

(サイズ順にソートされており、必ずしも品質を表しているわけではありません。IQ量子化は、同程度のサイズの非IQ量子化よりも優れていることが多いです。)

リンク	タイプ	サイズ/GB	注意事項
GGUF	Q2_K	0.4
GGUF	Q3_K_S	0.5
GGUF	Q3_K_M	0.5	低品質
GGUF	Q3_K_L	0.5
GGUF	IQ4_XS	0.6
GGUF	Q4_K_S	0.6	高速、推奨
GGUF	Q4_K_M	0.6	高速、推奨
GGUF	Q5_K_S	0.6
GGUF	Q5_K_M	0.7
GGUF	Q6_K	0.7	非常に良い品質
GGUF	Q8_0	0.9	高速、最高品質
GGUF	f16	1.6	16 bpw、過剰