T

Trocr Base Printed

由microsoft開發
TrOCR是基於Transformer的光學字符識別模型,專為單行文本圖像識別設計,採用編碼器-解碼器架構
下載量 184.84k
發布時間 : 3/2/2022

模型概述

該模型結合了圖像Transformer編碼器和文本Transformer解碼器,適用於印刷體文本的光學字符識別任務,特別針對SROIE數據集進行了微調

模型特點

Transformer架構
採用先進的Transformer架構處理圖像和文本序列,實現端到端OCR
預訓練權重初始化
圖像編碼器使用BEiT預訓練權重,文本解碼器使用RoBERTa預訓練權重
印刷體文本優化
專門針對印刷體文本識別進行了優化,在SROIE數據集上表現良好

模型能力

單行文本圖像識別
印刷體字符識別
端到端OCR處理

使用案例

文檔數字化
收據識別
自動識別掃描收據中的文本信息
在SROIE數據集上表現良好
發票處理
從發票圖像中提取關鍵字段信息
適用於結構化文檔處理
自動化辦公
表格識別
將印刷體表格轉換為可編輯文本
適合處理格式規範的文檔
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase