docscopeOCR-7B-050425-exp開源模型 - 精準實現文檔OCR與圖像文本轉換

首頁

Docscopeocr 7B 050425 Exp

由prithivMLmods開發

docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型，專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #文檔級OCR #LaTeX數學轉換 #長視頻理解

下載量 531

發布時間 : 5/3/2025

模型概述

該模型優化了文檔理解、結構化數據提取和視覺推理能力，適用於多種輸入格式的文檔處理。

模型特點

先進的文檔級 OCR

能夠從複雜的多頁文檔（如發票、學術論文、表格和掃描報告）中提取結構化內容。

增強的長上下文視覺語言理解

處理密集的文檔佈局、長序列的嵌入式文本、表格和圖表，並具備連貫的交叉引用理解能力。

跨分辨率的先進性能

在 OCR 和視覺問答基準測試（如 DocVQA、MathVista、RealWorldQA 和 MTVQA）中取得了有競爭力的結果。

長達 20 多分鐘的視頻理解

支持對長時間視頻的詳細理解，用於內容總結、問答和多模態推理。

基於視覺的設備交互

通過視覺輸入和基於文本的指令，利用上下文理解和決策邏輯實現移動/機器人設備操作。

模型能力

文檔級 OCR

視覺語言理解

圖像到文本轉換

數學 LaTeX 格式化

長視頻理解

視覺設備交互

使用案例

文檔處理

發票處理

從發票中提取結構化數據

高保真 OCR 提取

學術論文分析

從學術論文中提取內容和圖表

結構化內容提取

視覺問答

文檔問答

基於文檔內容的問答

準確的答案生成

數學表達式提取

從印刷或手寫內容中提取數學表達式並進行 LaTeX 格式化

精確的數學表達式轉換

視頻理解

視頻內容總結

對長時間視頻進行內容總結

詳細的視頻理解

🚀 docscopeOCR-7B-050425-exp

docscopeOCR-7B-050425-exp 模型是 Qwen/Qwen2.5-VL-7B-Instruct 的微調版本，針對 文檔級光學字符識別（OCR）、長上下文視覺語言理解 以及 帶有數學 LaTeX 格式的精確圖像到文本轉換 進行了優化。該模型基於 Qwen2.5-VL 架構構建，顯著提升了跨多種輸入格式的文檔理解、結構化數據提取和視覺推理能力。

🚀 快速開始

使用 Transformers 庫快速開始

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "prithivMLmods/docscopeOCR-7B-050425-exp", torch_dtype="auto", device_map="auto"
)

processor = AutoProcessor.from_pretrained("prithivMLmods/docscopeOCR-7B-050425-exp")

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主要特性

先進的文檔級 OCR：能夠從複雜的多頁文檔（如發票、學術論文、表格和掃描報告）中提取結構化內容。
增強的長上下文視覺語言理解：旨在處理密集的文檔佈局、長序列的嵌入式文本、表格和圖表，並具備連貫的交叉引用理解能力。
跨分辨率的先進性能：在 OCR 和視覺問答基準測試（如 DocVQA、MathVista、RealWorldQA 和 MTVQA）中取得了有競爭力的結果。
長達 20 多分鐘的視頻理解：支持對長時間視頻的詳細理解，用於內容總結、問答和多模態推理。
基於視覺的設備交互：通過視覺輸入和基於文本的指令，利用上下文理解和決策邏輯實現移動/機器人設備操作。

🔧 技術細節

訓練詳情

屬性	詳情
數據集大小	274,209 個樣本（數據集的模塊化組合）
模型架構	`Qwen2_5_VLForConditionalGeneration`
硬件	2 × NVIDIA A100 SXM（32 vCPUs）
總磁盤空間	170,000 MB
訓練時間	9,020 秒（約 2.51 小時）
學習率	1e-5
調度器	線性衰減
預熱步數	750
精度	bfloat16

⚠️ 重要提示

開放數據集的圖像文本響應將很快更新。

📚 詳細文檔

預期用途

此模型適用於以下場景：

從文檔、表格、收據以及印刷或掃描材料中進行高保真 OCR。
用於教育和企業應用的基於圖像和文檔的問答。
從印刷或手寫內容中提取數學表達式並進行 LaTeX 格式化。
從長文檔、幻燈片和多模態輸入中進行檢索和總結。
用於全球用例的多語言 OCR 和結構化內容提取。
具有視覺引導上下文交互的機器人或移動自動化。

侷限性

在極低質量或被遮擋的圖像上，性能可能會下降。
由於計算需求，未針對低資源或邊緣設備上的即時應用進行優化。
在不常見或低資源語言/腳本上的準確性可能會有所不同。
長視頻處理可能需要大量內存，並且未針對流媒體應用進行優化。
視覺令牌設置會影響性能；次優配置可能會影響結果。
在極少數情況下，輸出可能包含幻覺或上下文不一致的信息。

📄 許可證

本項目採用 Apache-2.0 許可證。

📖 參考文獻

DocVLM: Make Your VLM an Efficient Reader https://arxiv.org/pdf/2412.08746v1
YaRN: Efficient Context Window Extension of Large Language Models
https://arxiv.org/pdf/2309.00071
Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
https://arxiv.org/pdf/2409.12191
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
https://arxiv.org/pdf/2308.12966
A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy https://arxiv.org/pdf/2412.02210