Fine-tune Donut CORD v2.5 Open-source Model - Free Deployment for Accurate Document Image to Text Conversion

Finetune Donut Cord V2.5

Developed by fahmiaziz

This is a vision-language model based on the Donut architecture, specifically fine-tuned for the CORD-V2 dataset for document image-to-text tasks.

Image-to-Text

Transformers

Open Source License:Openrail #Document Image to Text #High-Precision OCR #Structured Information Extraction

Downloads 97

Release Time : 9/12/2023

Model Overview

The model can extract structured text information from document images, particularly suitable for automatic recognition and conversion of receipts, forms, and other documents.

Model Features

High Accuracy

Achieves 90% accuracy on the CORD-V2 dataset

Document Understanding

Optimized for document images, capable of handling complex document layouts

End-to-End Processing

Directly processes from image input to structured text output without intermediate steps

Model Capabilities

Document Image Recognition

Text Extraction

Structured Data Conversion

Receipt Information Extraction

Use Cases

Document Digitization

Receipt Processing

Automatically extracts merchant, date, amount, and other information from receipt images

90% accuracy

Form Recognition

Converts paper forms into structured electronic data

Office Automation

Document Archiving

Automatically generates searchable text content for scanned documents

Property	Details
Model Type	Donut base
Training Data	naver - clova - ix/cord - v2
Evaluation Metrics	accuracy, code_eval
Library Name	transformers
Pipeline Tag	image - to - text
License	openrail

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Finetune Donut Cord V2.5

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Fine-tuning Donut base with CORD dataset

🚀 Quick Start

✨ Features

📚 Documentation

Model Information

Performance