D

Docscopeocr 7B 050425 Exp

由prithivMLmods開發
docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型,專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。
下載量 531
發布時間 : 5/3/2025

模型概述

該模型優化了文檔理解、結構化數據提取和視覺推理能力,適用於多種輸入格式的文檔處理。

模型特點

先進的文檔級 OCR
能夠從複雜的多頁文檔(如發票、學術論文、表格和掃描報告)中提取結構化內容。
增強的長上下文視覺語言理解
處理密集的文檔佈局、長序列的嵌入式文本、表格和圖表,並具備連貫的交叉引用理解能力。
跨分辨率的先進性能
在 OCR 和視覺問答基準測試(如 DocVQA、MathVista、RealWorldQA 和 MTVQA)中取得了有競爭力的結果。
長達 20 多分鐘的視頻理解
支持對長時間視頻的詳細理解,用於內容總結、問答和多模態推理。
基於視覺的設備交互
通過視覺輸入和基於文本的指令,利用上下文理解和決策邏輯實現移動/機器人設備操作。

模型能力

文檔級 OCR
視覺語言理解
圖像到文本轉換
數學 LaTeX 格式化
長視頻理解
視覺設備交互

使用案例

文檔處理
發票處理
從發票中提取結構化數據
高保真 OCR 提取
學術論文分析
從學術論文中提取內容和圖表
結構化內容提取
視覺問答
文檔問答
基於文檔內容的問答
準確的答案生成
數學表達式提取
從印刷或手寫內容中提取數學表達式並進行 LaTeX 格式化
精確的數學表達式轉換
視頻理解
視頻內容總結
對長時間視頻進行內容總結
詳細的視頻理解
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase