🚀 docscopeOCR-7B-050425-exp
docscopeOCR-7B-050425-exp 模型是 Qwen/Qwen2.5-VL-7B-Instruct 的微調版本,針對 文檔級光學字符識別(OCR)、長上下文視覺語言理解 以及 帶有數學 LaTeX 格式的精確圖像到文本轉換 進行了優化。該模型基於 Qwen2.5-VL 架構構建,顯著提升了跨多種輸入格式的文檔理解、結構化數據提取和視覺推理能力。

🚀 快速開始
使用 Transformers 庫快速開始
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"prithivMLmods/docscopeOCR-7B-050425-exp", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("prithivMLmods/docscopeOCR-7B-050425-exp")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": "Describe this image."},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
✨ 主要特性
- 先進的文檔級 OCR:能夠從複雜的多頁文檔(如發票、學術論文、表格和掃描報告)中提取結構化內容。
- 增強的長上下文視覺語言理解:旨在處理密集的文檔佈局、長序列的嵌入式文本、表格和圖表,並具備連貫的交叉引用理解能力。
- 跨分辨率的先進性能:在 OCR 和視覺問答基準測試(如 DocVQA、MathVista、RealWorldQA 和 MTVQA)中取得了有競爭力的結果。
- 長達 20 多分鐘的視頻理解:支持對長時間視頻的詳細理解,用於內容總結、問答和多模態推理。
- 基於視覺的設備交互:通過視覺輸入和基於文本的指令,利用上下文理解和決策邏輯實現移動/機器人設備操作。
🔧 技術細節
訓練詳情
屬性 |
詳情 |
數據集大小 |
274,209 個樣本(數據集的模塊化組合) |
模型架構 |
Qwen2_5_VLForConditionalGeneration |
硬件 |
2 × NVIDIA A100 SXM(32 vCPUs) |
總磁盤空間 |
170,000 MB |
訓練時間 |
9,020 秒(約 2.51 小時) |
學習率 |
1e-5 |
調度器 |
線性衰減 |
預熱步數 |
750 |
精度 |
bfloat16 |
⚠️ 重要提示
開放數據集的圖像文本響應將很快更新。
📚 詳細文檔
預期用途
此模型適用於以下場景:
- 從文檔、表格、收據以及印刷或掃描材料中進行高保真 OCR。
- 用於教育和企業應用的基於圖像和文檔的問答。
- 從印刷或手寫內容中提取數學表達式並進行 LaTeX 格式化。
- 從長文檔、幻燈片和多模態輸入中進行檢索和總結。
- 用於全球用例的多語言 OCR 和結構化內容提取。
- 具有視覺引導上下文交互的機器人或移動自動化。
侷限性
- 在極低質量或被遮擋的圖像上,性能可能會下降。
- 由於計算需求,未針對低資源或邊緣設備上的即時應用進行優化。
- 在不常見或低資源語言/腳本上的準確性可能會有所不同。
- 長視頻處理可能需要大量內存,並且未針對流媒體應用進行優化。
- 視覺令牌設置會影響性能;次優配置可能會影響結果。
- 在極少數情況下,輸出可能包含幻覺或上下文不一致的信息。
📄 許可證
本項目採用 Apache-2.0 許可證。
📖 參考文獻