textnet-base开源文本检测模型 - 轻量高效平衡检测精度与推理速度

首页

Textnet Base

由 czczup 开发

TextNet是一款专为文本检测设计的轻量高效架构，通过三个变体在检测精度与推理速度间实现卓越平衡。

文字识别

Transformers

#轻量文本检测 #多语言文本识别 #高效GPU部署

下载量 1,061

发布时间 : 12/24/2024

模型简介

TextNet是专为文本检测设计的轻量高效模型系列，包含T/S/B三个参数量不同的变体，在自然场景文字识别等任务中表现优异。

模型特点

轻量高效

参数量仅为680万-890万，比传统模型更具参数效率

性能优越

在文本检测领域达到顶尖水平，准确率和速度均超越手工设计模型

GPU优化

架构高度高效，特别适合GPU部署场景

模型能力

自然场景文字检测

多语言文本识别

文档文本区域分析

使用案例

文字识别

自然场景文字识别

识别复杂背景中的文字内容

高精度检测结果

多语言文本检测

支持多种语言的文本识别

文档分析

提取文档中的文本区域

🚀 TextNet-T/S/B：高效文本检测模型

TextNet是专门为文本检测设计的轻量级高效架构，与MobileNetV3等传统模型相比，性能更优。它有TextNet-T、TextNet-S和TextNet-B三种变体（参数分别为680万、800万和890万），在准确性和推理速度之间实现了出色的平衡。

🚀 快速开始

安装`transformers`库

pip install transformers

使用示例代码

import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")

inputs = processor(image, return_tensors="pt")
with torch.no_grad():
  outputs = model(**inputs)

✨ 主要特性

性能卓越：TextNet在文本检测方面取得了最先进的成果，在准确性和速度上均优于手工设计的模型。其架构效率极高，非常适合基于GPU的应用。
参数高效：TextNet-T、TextNet-S和TextNet-B的参数分别仅为680万、800万和890万，比ResNets和VGG16等模型在参数使用上更高效。
应用广泛：适用于各种现实世界的文本检测任务，包括自然场景文本识别、多语言和多方向文本检测以及文档文本区域分析。

📦 安装指南

若要使用TextNet模型，可通过以下命令安装transformers库：

pip install transformers

💻 使用示例

基础用法

import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")

inputs = processor(image, return_tensors="pt")
with torch.no_grad():
  outputs = model(**inputs)

📚 详细文档

训练过程

我们首先将TextNet与具有代表性的手工设计骨干网络（如ResNets和VGG16）进行比较。为了进行公平比较，所有模型首先在IC17 - MLT [52]上进行预训练，然后在Total - Text上进行微调。与之前的手工设计模型相比，所提出的TextNet模型在准确性和推理速度之间取得了显著更优的平衡。此外，值得注意的是，我们的TextNet-T、TextNet-S和TextNet-B分别仅具有680万、800万和890万参数，比ResNets和VGG16在参数使用上更高效。这些结果表明，TextNet模型在GPU设备上进行文本检测非常有效。