L

Layoutlmv2 Base Uncased Finetuned Docvqa

由rogdevil開發
該模型是基於Microsoft LayoutLMv2架構的文檔視覺問答(VQA)專用模型,通過微調適應文檔理解任務
下載量 16
發布時間 : 2/29/2024

模型概述

專門用於處理文檔圖像中的視覺問答任務,能夠理解文檔佈局結構和文本內容的關聯性

模型特點

多模態理解能力
同時處理文檔文本內容和視覺佈局信息
文檔結構感知
能夠理解表格、表單等複雜文檔結構
高效微調
基於預訓練模型進行任務特定微調

模型能力

文檔圖像理解
視覺問答
文本定位
佈局分析

使用案例

文檔處理
表單信息提取
從掃描的表單文檔中自動提取關鍵信息
發票處理
識別發票中的金額、日期等關鍵字段
教育
試卷自動批改
識別學生答卷中的手寫或打印答案
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase