🚀 TextNet-T/S/B:高效文本检测模型
TextNet是专门为文本检测设计的轻量级高效架构,与MobileNetV3等传统模型相比,性能更优。它有TextNet-T、TextNet-S和TextNet-B三种变体(参数分别为680万、800万和890万),在准确性和推理速度之间实现了出色的平衡。
🚀 快速开始
安装transformers
库
pip install transformers
使用示例代码
import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
✨ 主要特性
- 性能卓越:TextNet在文本检测方面取得了最先进的成果,在准确性和速度上均优于手工设计的模型。其架构效率极高,非常适合基于GPU的应用。
- 参数高效:TextNet-T、TextNet-S和TextNet-B的参数分别仅为680万、800万和890万,比ResNets和VGG16等模型在参数使用上更高效。
- 应用广泛:适用于各种现实世界的文本检测任务,包括自然场景文本识别、多语言和多方向文本检测以及文档文本区域分析。
📦 安装指南
若要使用TextNet模型,可通过以下命令安装transformers
库:
pip install transformers
💻 使用示例
基础用法
import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
📚 详细文档
训练过程
我们首先将TextNet与具有代表性的手工设计骨干网络(如ResNets和VGG16)进行比较。为了进行公平比较,所有模型首先在IC17 - MLT [52]上进行预训练,然后在Total - Text上进行微调。与之前的手工设计模型相比,所提出的TextNet模型在准确性和推理速度之间取得了显著更优的平衡。此外,值得注意的是,我们的TextNet-T、TextNet-S和TextNet-B分别仅具有680万、800万和890万参数,比ResNets和VGG16在参数使用上更高效。这些结果表明,TextNet模型在GPU设备上进行文本检测非常有效。
应用场景
TextNet非常适合现实世界的文本检测任务,包括:
- 自然场景文本识别
- 多语言和多方向文本检测
- 文档文本区域分析
📄 许可证
文档中未提及相关许可证信息。
贡献者
该模型由 Raghavan、jadechoghari 和 nielsr 贡献。