donut_rus Open - source Russian text recognition model - Free deployment for accurate recognition of Russian literature image texts

Donut Rus

Developed by Akajackson

An end-to-end Russian text recognition model based on Transformer architecture, trained on a SynthDoG synthetic dataset containing 100,000 images of Russian literary works

Text Recognition

Transformers

Supports Multiple Languages#Russian-English bilingual OCR #End-to-end document understanding #Literary text recognition

Downloads 550

Release Time : 4/2/2023

Model Overview

This model is a Donut model for Russian and English text recognition, employing an end-to-end Transformer architecture, particularly suitable for processing text content in document images.

Model Features

Multilingual Support

Supports Russian and English text recognition, suitable for multilingual document processing scenarios

Efficient Recognition

Achieves a normalized edit distance (Normed ED) of 0.02239 on the validation set, demonstrating excellent performance

Synthetic Data Training

Trained on 100,000 SynthDoG synthetic dataset with text content sourced from Russian literary works

Customized Tokenizer

Utilizes DeepPavlov/xlm-roberta-large-en-ru as the tokenizer, optimized for Russian language processing

Model Capabilities

Document image text recognition

Multilingual text extraction

End-to-end document processing

Use Cases

Document Processing

Multi-format Document Recognition

Recognize text content in various document formats

High-precision text extraction

Document QA System

Build a question-answering system based on recognized text content

Document Classification

Classify documents based on recognized content

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Donut Rus

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Donut Model for Russian Text Recognition

🚀 Quick Start

✨ Features

📦 Installation

💻 Usage Examples

📚 Documentation

Model Overview

Applicable Datasets

Supported Languages

🔧 Technical Details

📄 License