Trocr Base Str
TrOCR是基於Transformer的光學字符識別模型,專為單行文本圖像識別設計,在多個標準數據集上進行了微調。
下載量 692
發布時間 : 9/8/2022
模型概述
該模型採用編碼器-解碼器架構,結合了BEiT圖像編碼器和RoBERTa文本解碼器,適用於各種場景下的文本識別任務。
模型特點
基於Transformer的OCR
採用先進的Transformer架構處理視覺文本識別任務,結合了計算機視覺和自然語言處理技術。
預訓練模型微調
圖像編碼器基於BEiT預訓練,文本解碼器基於RoBERTa預訓練,具有強大的遷移學習能力。
多數據集適應
在IC13、IC15、IIIT5K、SVT等多個標準OCR數據集上進行了微調,具有廣泛適用性。
模型能力
單行文本圖像識別
場景文字識別
印刷體文字識別
手寫體文字識別(有限支持)
使用案例
文檔數字化
掃描文檔OCR
將掃描的文檔圖像轉換為可編輯文本
高準確率的文本轉換
場景文字識別
街景文字識別
識別照片中的街道標誌和廣告牌文字
可處理不同角度和光照條件的文字
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98