donut-base-finetuned-cord-v2開源模型 - 從圖像高效提取結構化文本信息

首頁

Donut Base Finetuned Cord V2

由Xenova開發

Donut是一個基於Swin Transformer的視覺文檔理解模型，專門針對CORD數據集進行了微調，能夠從圖像中提取結構化文本信息。

圖像生成文本

Transformers

#文檔圖像轉文本 #ONNX網頁端部署 #結構化數據提取

下載量 32

發布時間 : 9/5/2023

模型概述

該模型是基於Donut架構的視覺文檔理解模型，經過CORD數據集的微調，能夠處理文檔圖像並提取其中的結構化文本信息。

模型特點

視覺文檔理解

能夠從文檔圖像中提取結構化文本信息，適用於各種文檔處理場景。

基於Swin Transformer

採用先進的Swin Transformer架構，具有強大的視覺特徵提取能力。

網頁端兼容

已轉換為ONNX格式，可通過Transformers.js在網頁端使用。

模型能力

文檔圖像處理

結構化文本提取

視覺特徵識別

使用案例

文檔處理

收據信息提取

從收據圖像中自動提取商家、金額、日期等結構化信息

提高數據錄入效率，減少人工處理

表單識別

識別各種表單中的字段和內容

實現表單數據的自動化處理

屬性	詳情
基礎模型	naver-clova-ix/donut-base-finetuned-cord-v2
庫名稱	transformers.js
標籤	donut、image-to-text、vision、donut-swin

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Donut Base Finetuned Cord V2

模型概述

模型特點

模型能力

使用案例

🚀 Donut模型ONNX適配項目

🚀 快速開始

📚 詳細文檔