T

Trocr Base Printed

Developed by microsoft
TrOCR是基於Transformer的光學字符識別模型,專為單行文本圖像識別設計,採用編碼器-解碼器架構
Downloads 184.84k
Release Time : 3/2/2022

Model Overview

該模型結合了圖像Transformer編碼器和文本Transformer解碼器,適用於印刷體文本的光學字符識別任務,特別針對SROIE數據集進行了微調

Model Features

Transformer架構
採用先進的Transformer架構處理圖像和文本序列,實現端到端OCR
預訓練權重初始化
圖像編碼器使用BEiT預訓練權重,文本解碼器使用RoBERTa預訓練權重
印刷體文本優化
專門針對印刷體文本識別進行了優化,在SROIE數據集上表現良好

Model Capabilities

單行文本圖像識別
印刷體字符識別
端到端OCR處理

Use Cases

文檔數字化
收據識別
自動識別掃描收據中的文本信息
在SROIE數據集上表現良好
發票處理
從發票圖像中提取關鍵字段信息
適用於結構化文檔處理
自動化辦公
表格識別
將印刷體表格轉換為可編輯文本
適合處理格式規範的文檔
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase