T

Trocr Large Str

Developed by microsoft
TrOCR是一个基于Transformer的光学字符识别模型,专为单行文本图像设计,在多个标准数据集上进行了微调。
Downloads 571
Release Time : 9/8/2022

Model Overview

TrOCR模型结合了图像Transformer编码器和文本Transformer解码器,能够高效地从图像中识别文本内容。

Model Features

基于Transformer架构
采用先进的Transformer架构,结合图像和文本处理能力
多数据集微调
在IC13、IC15、IIIT5K和SVT等多个标准数据集上进行了微调
预训练模型初始化
图像编码器使用BEiT初始化,文本解码器使用RoBERTa初始化

Model Capabilities

单行文本图像识别
光学字符识别
图像到文本转换

Use Cases

文档数字化
扫描文档识别
将扫描的纸质文档转换为可编辑文本
高准确率的文本转换
场景文本识别
街景文字识别
识别照片中的街道标志和广告文字
可识别各种字体和背景的文字
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase