T

Trocr Small Spanish

由qantev開發
基於Transformer架構優化的西班牙語印刷體OCR模型,不支持手寫體識別
下載量 270
發布時間 : 2/22/2024

模型概述

TrOCR小型模型專為西班牙語印刷文本識別優化,採用視覺Transformer編碼器和文本Transformer解碼器架構,在自建數據集上微調實現

模型特點

西班牙語專項優化
基於200萬條西班牙語樣本的自建數據集訓練,針對印刷體字符識別優化
高效架構設計
採用圖像Transformer編碼器提取視覺特徵,文本Transformer解碼器生成序列,實現端到端識別
即時數據增強
訓練時動態生成增強圖像,相比預存圖像方案效率提升顯著

模型能力

印刷體文字識別
西班牙語文本提取
短句級OCR處理
圖像到文本轉換

使用案例

文檔數字化
維基百科內容提取
從西班牙語維基百科頁面圖像中提取文本內容
字符錯誤率6.32%(大型模型)
表單處理
XFUND數據集處理
西班牙語表單文檔的文本識別
顯著優於EasyOCR(CER降低12.84%)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase