Document Qa Model

D

Document Qa Model

由lakshya-rawat開發

基於LayoutLMv3-base微調的文檔問答模型，能夠利用OCR數據理解文檔並回答相關問題。

文本生成圖像

支持多種語言開源協議:Apache-2.0 #文檔佈局問答 #多語言OCR理解 #結構化信息提取

下載量 54

發布時間 : 4/19/2025

模型概述

該模型經過訓練，能夠利用OCR數據（通過PaddleOCR）理解文檔，並準確回答與文檔佈局中結構化信息相關的問題。

模型特點

多語言支持

支持英語、西班牙語、法語、德語和意大利語的文檔問答。

佈局感知

能夠理解文檔的佈局和結構，提高問答準確性。

OCR集成

結合PaddleOCR提取的文本和位置信息，增強文檔理解能力。

模型能力

文檔圖像問答

文本信息提取

結構化查詢回答

使用案例

文檔處理

水電賬單解析

從水電賬單圖像中提取並回答關於費用、日期等信息。

高準確率的費用和日期信息提取。

發票信息提取

從發票圖像中提取供應商、金額和商品信息。

結構化輸出供應商和金額信息。

🚀 文檔問答模型

這是一個基於layoutlmv3-base的微調文檔問答模型。它經過訓練，能夠利用OCR數據（通過PaddleOCR）理解文檔，並準確回答與文檔佈局中的結構化信息相關的問題。

🚀 快速開始

本模型可直接用於對文檔圖像（如PDF、發票、水電費賬單）進行問答，以及利用OCR和佈局感知理解進行信息提取任務。

✨ 主要特性

基於layoutlmv3-base進行微調，能夠理解文檔並回答相關問題。
支持多種語言，包括英語、西班牙語、法語、德語和意大利語。
利用OCR數據（PaddleOCR）和佈局感知理解，準確回答結構化信息問題。

📚 詳細文檔

模型詳情

屬性	詳情
模型名稱	`document-qa-model`
基礎模型	microsoft/layoutlmv3-base
微調者	Lakshya Singh（獨立貢獻者）
支持語言	英語、西班牙語、法語、德語、意大利語
許可證	Apache - 2.0（繼承自基礎模型）
預期用途	從掃描文檔中提取結構化查詢的答案
資金情況	無資助，此項目獨立完成

模型來源

倉庫：Github鏈接
訓練數據集：nielsr/docvqa_1200_examples的改編版本
模型指標：查看

使用場景

直接使用

本模型可用於以下場景：

對文檔圖像（PDF、發票、水電費賬單）進行問答。
利用OCR和佈局感知理解進行信息提取任務。

不適用場景

不適用於對話式問答。
不適用於沒有經過OCR處理文本的圖像。

訓練詳情

數據集

數據集包含：

水電費賬單和文檔的圖像。
帶有邊界框的OCR數據（來自PaddleOCR）。
英語、西班牙語和中文的查詢。
帶有匹配分數和位置的答案範圍。

訓練過程

預處理：使用PaddleOCR提取標記、位置和結構。
模型：LayoutLMv3 - base
訓練輪數：4
學習率調度：見下圖

訓練指標

F1分數（驗證集）：
損失和學習率圖表：

評估

使用的指標

F1分數
預測範圍的匹配分數
與真實值的標記重疊

總結

該模型在文檔式問答任務中表現良好，尤其適用於以下情況：

OCR結果結構清晰。
文檔類型類似於水電費賬單、發票和表單。

使用方法

本模型可在我的Github上獲取。

📄 許可證

本模型使用Apache - 2.0許可證（繼承自基礎模型）。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase