T

Trocr Base Str

由microsoft開發
TrOCR是基於Transformer的光學字符識別模型,專為單行文本圖像識別設計,在多個標準數據集上進行了微調。
下載量 692
發布時間 : 9/8/2022

模型概述

該模型採用編碼器-解碼器架構,結合了BEiT圖像編碼器和RoBERTa文本解碼器,適用於各種場景下的文本識別任務。

模型特點

基於Transformer的OCR
採用先進的Transformer架構處理視覺文本識別任務,結合了計算機視覺和自然語言處理技術。
預訓練模型微調
圖像編碼器基於BEiT預訓練,文本解碼器基於RoBERTa預訓練,具有強大的遷移學習能力。
多數據集適應
在IC13、IC15、IIIT5K、SVT等多個標準OCR數據集上進行了微調,具有廣泛適用性。

模型能力

單行文本圖像識別
場景文字識別
印刷體文字識別
手寫體文字識別(有限支持)

使用案例

文檔數字化
掃描文檔OCR
將掃描的文檔圖像轉換為可編輯文本
高準確率的文本轉換
場景文字識別
街景文字識別
識別照片中的街道標誌和廣告牌文字
可處理不同角度和光照條件的文字
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase