T

Trocr Large Printed

由microsoft開發
基於Transformer的光學字符識別模型,適用於單行印刷體文本識別
下載量 295.59k
發布時間 : 3/2/2022

模型概述

TrOCR採用編碼器-解碼器架構,結合圖像Transformer和文本Transformer,專門用於光學字符識別(OCR)任務。該版本針對印刷體文本進行了優化。

模型特點

混合架構設計
結合視覺Transformer編碼器和文本Transformer解碼器,實現端到端OCR
預訓練權重初始化
圖像編碼器繼承BEiT權重,文本解碼器繼承RoBERTa權重,提升模型性能
印刷體文本優化
專門針對印刷體文本識別進行微調,在SROIE數據集上表現優異

模型能力

印刷體文本識別
單行文本圖像處理
端到端字符識別

使用案例

文檔數字化
收據識別
自動識別掃描收據中的文本信息
在SROIE數據集上表現良好
表格處理
提取表格文檔中的文字內容
工業應用
產品標籤識別
自動讀取產品標籤上的印刷文字
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase