Q

Qwen2 VL OCR 2B Instruct GGUF

prithivMLmodsによって開発
Qwen/Qwen2-VL-2B-Instructをファインチューニングしたマルチモーダルモデルで、OCR、画像からテキストへの変換、LaTeX数式解決、手書き認識に最適化
ダウンロード数 142
リリース時間 : 5/15/2025

モデル概要

視覚とテキスト理解を組み合わせた対話型モデルで、光学文字認識、手書きテキスト抽出、数式解析などの混合タスクをサポート

モデル特徴

マルチモーダルOCR能力
印刷体、手書き体、数式の混合認識タスクを処理可能
量子化サポート
1ビットから8ビットまでの複数量子化バージョンを提供し、様々なハードウェア要件に対応
対話型インタラクション
視覚入力に基づく質疑応答型インタラクションをサポート

モデル能力

光学文字認識(OCR)
手書きテキスト抽出
LaTeX数式解析
画像からテキストへの変換
視覚的質問応答(VQA)

使用事例

文書デジタル化
印刷文書OCR
スキャン画像や写真中の印刷文字を編集可能なテキストに変換
複雑なレイアウト認識をサポート
手書きメモ転写
乱雑な手書き内容を認識しデジタルテキストに変換
非標準的な筆跡に最適化
教育支援
数学課題解析
手書きまたは印刷された数学問題を認識しLaTeX形式で解析
数式記号認識をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase