visionOCR-3B-061125-GGUF開源OCR模型 - 支持文檔識別、長文理解與公式轉換

Visionocr 3B 061125 GGUF

由prithivMLmods開發

基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型，專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換

下載量 131

發布時間 : 6/12/2025

模型概述

該模型針對文檔級光學字符識別（OCR）、長上下文視覺語言理解以及帶有數學LaTeX格式的精確圖像轉文本轉換進行了優化，提升了對各種輸入格式文檔的理解、結構化數據提取和視覺推理能力。

文檔級OCR優化

專門針對文檔級光學字符識別任務進行優化，提高文本提取精度

長上下文理解

增強了對長上下文視覺語言的理解能力，適合處理複雜文檔

數學LaTeX支持

能夠精確轉換包含數學公式的圖像為LaTeX格式文本

多量化版本

提供從BF16到2位量化的多種版本，適應不同硬件需求

文檔圖像轉文本

數學公式識別

結構化數據提取

視覺推理

長文本理解

文檔處理

掃描文檔數字化

將掃描的PDF或圖像轉換為可編輯文本

保留原始格式和數學符號

學術論文處理

提取論文中的數學公式和特殊符號

轉換為LaTeX格式

教育

數學題目識別

從圖像中識別數學題目和公式

生成可編輯的數學表達式