文檔理解

# 文檔理解

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持視覺-文本輸入和文本輸出，通過INT8權重量化優化推理效率

圖像生成文本

Transformers 英語

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-Instruct的FP8量化版本，支持視覺-文本輸入和文本輸出，優化了推理效率。

文本生成圖像

Transformers 英語

H2ovl Mississippi 800m

H2O.ai推出的8億參數視覺語言模型，專注於OCR和文檔理解，性能優異

圖像生成文本

Transformers 英語

Idefics3 8B Llama3

Idefics3是一個開源的多模態模型，能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。

圖像生成文本

Transformers 英語

Donut 是一個基於 Transformer 的圖像轉文本模型，能夠從圖像中提取和生成文本內容。

圖像生成文本

Fine Tuned Rvl Cdip

基於microsoft/layoutlmv3-base模型在文檔圖像分類任務上微調的版本，在評估集上F1分數達到0.8177

Donut Base Handwriting Recognition

基於naver-clova-ix/donut-base微調的手寫識別模型

Docllm Baichuan2 7b

DocLLM_reimplementation 是一個針對文檔理解任務的大語言模型實現項目，旨在重新實現和改進文檔理解能力。

大型語言模型

JinghuiLuAstronaut

基於Yazawa/donut-base-sroie微調的文檔理解模型，適用於結構化文檔信息提取任務

Donut Receipt V3

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

大型語言模型

Donut Receipt V2

基於naver-clova-ix/donut-base微調的模型，可能用於收據識別或文檔理解任務

大型語言模型

Donut Base Sroie

基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型，具體用途未明確說明

Donut Trained Example 3

基於Donut架構的微調模型，具體用途和功能需要更多信息

大型語言模型

Donut Trained Example 2

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

大型語言模型

Donut Base Receipt V3

基於naver-clova-ix/donut-base微調的收據識別模型

大型語言模型

Donut Base Receipt

基於naver-clova-ix/donut-base微調的收據識別模型

大型語言模型

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

大型語言模型

這是一個基於CORD-v2數據集微調的Donut模型，專為圖像轉文本任務設計，平均準確率達到0.901。

圖像生成文本

Layoutlmv3 Finetuned Funsd

基於microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3數據集上微調的文檔理解模型

Donut Base Sroie

該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本，適用於文檔理解任務。

基於naver-clova-ix/donut-base微調的發票處理模型

圖像生成文本

Donut Base Label Studio 200 Invoices

基於Donut架構的發票識別模型，在200張發票數據集上微調

Donut Base Sroie

基於philschmid/donut-base-sroie微調的文檔理解模型

Lilt Infoxlm Base

LiLT-InfoXLM 是一種語言無關的佈局變換器模型，通過將預訓練的InfoXLM與語言無關佈局變換器（LiLT）結合而成，適用於結構化文檔理解任務。

多模態融合

Donut Base Sroie

基於naver-clova-ix/donut-base微調的文檔理解模型，適用於圖像文本提取任務

基於CORD-v2數據集微調的VisionEncoderDecoder模型，用於文檔理解任務

Layoutlmv3 Finetuned Wildreceipt

基於LayoutLMv3-base模型在WildReceipt收據數據集上微調的版本，用於收據關鍵信息提取任務

Theivaprakasham

Layoutlmv3 Finetuned Invoice

基於LayoutLMv3架構微調的發票信息提取模型，在SROIE數據集上表現出色

Layoutlmv3 Finetuned Invoice

在發票數據集上對LayoutLMv3-base進行微調的版本，用於發票信息提取

Theivaprakasham

Layoutlmv3 Finetuned Cord

基於LayoutLMv3在CORD數據集上微調的文檔理解模型，擅長文檔標記分類任務

Layoutlmv3 Finetuned Funsd

基於LayoutLMv3-base模型在FUNSD數據集上微調的文檔理解模型，擅長表單和文檔的標記分類任務

Layoutlmv2 Finetuned Cord

基於microsoft/layoutlmv2-base-uncased模型在未知數據集上微調的版本，適用於文檔理解任務

Layoutlmv2 Finetuned Cord

基於LayoutLMv2架構在CORD數據集上微調的文檔理解模型，適用於結構化文檔信息提取任務

Layoutlmv2 Finetuned Funsd

基於 Microsoft LayoutLMv2 模型在 FUNSD 數據集上微調的文檔理解模型

Layoutlmv2 Finetuned Sroie Mod

基於microsoft/layoutlmv2-base-uncased微調的文檔理解模型，適用於結構化文檔信息提取任務

大型語言模型

Theivaprakasham

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase