L

Layoutlmv2 Base Uncased Finetuned Docvqa

由hugginglaoda開發
基於LayoutLMv2架構的文檔視覺問答模型,專門針對文檔理解任務進行微調
下載量 16
發布時間 : 4/1/2023

模型概述

該模型是LayoutLMv2基礎版在文檔視覺問答(DocVQA)任務上的微調版本,能夠理解文檔佈局和內容,回答與文檔相關的問題

模型特點

多模態理解能力
結合文本內容和視覺佈局信息進行文檔理解
文檔結構感知
能夠識別並利用文檔中的表格、段落等結構信息
端到端問答
直接從文檔圖像中提取信息回答問題,無需中間OCR步驟

模型能力

文檔視覺問答
文檔理解
佈局分析
文本定位

使用案例

文檔處理
表單信息提取
從掃描的表單中提取特定字段信息
合同分析
回答關於合同條款的具體問題
教育
試卷自動批改
基於掃描試卷回答評分相關問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase