donut_rus開源俄語文本識別模型 - 免費部署精準識別俄文文學圖像文本

首頁

Donut Rus

由Akajackson開發

基於Transformer架構的端到端俄語文本識別模型，訓練於包含10萬張俄羅斯文學作品圖像的SynthDoG合成數據集

文字識別

Transformers

支持多種語言#俄英雙語OCR #端到端文檔理解 #文學文本識別

下載量 550

發布時間 : 4/2/2023

模型概述

該模型是一個用於俄語和英語文本識別的Donut模型，採用端到端Transformer架構，特別適用於處理文檔圖像中的文本內容。

模型特點

多語言支持

支持俄語和英語文本識別，適用於多語言文檔處理場景

高效識別

驗證集標準化編輯距離(Normed ED)達到0.02239，表現出色

合成數據訓練

使用10萬張SynthDoG合成數據集訓練，文本內容來自俄羅斯文學作品

定製化tokenizer

採用DeepPavlov/xlm-roberta-large-en-ru作為tokenizer，優化俄語處理能力

模型能力

文檔圖像文本識別

多語言文本提取

端到端文檔處理

使用案例

文檔處理

多類型文檔識別

識別各種格式文檔中的文本內容

高精度文本提取

文檔問答系統

基於識別的文本內容構建問答系統

文檔分類

根據識別內容對文檔進行分類

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Donut Rus

模型概述

模型特點

模型能力

使用案例

🚀 俄語文本識別模型Donut

🚀 快速開始

模型信息

模型倉庫

✨ 主要特性