T

Trocr Large Str

由microsoft開發
TrOCR是一個基於Transformer的光學字符識別模型,專為單行文本圖像設計,在多個標準數據集上進行了微調。
下載量 571
發布時間 : 9/8/2022

模型概述

TrOCR模型結合了圖像Transformer編碼器和文本Transformer解碼器,能夠高效地從圖像中識別文本內容。

模型特點

基於Transformer架構
採用先進的Transformer架構,結合圖像和文本處理能力
多數據集微調
在IC13、IC15、IIIT5K和SVT等多個標準數據集上進行了微調
預訓練模型初始化
圖像編碼器使用BEiT初始化,文本解碼器使用RoBERTa初始化

模型能力

單行文本圖像識別
光學字符識別
圖像到文本轉換

使用案例

文檔數字化
掃描文檔識別
將掃描的紙質文檔轉換為可編輯文本
高準確率的文本轉換
場景文本識別
街景文字識別
識別照片中的街道標誌和廣告文字
可識別各種字體和背景的文字
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase