textnet-base開源文本檢測模型 - 輕量高效平衡檢測精度與推理速度

首頁

Textnet Base

由czczup開發

TextNet是一款專為文本檢測設計的輕量高效架構，通過三個變體在檢測精度與推理速度間實現卓越平衡。

文字識別

Transformers

#輕量文本檢測 #多語言文本識別 #高效GPU部署

下載量 1,061

發布時間 : 12/24/2024

模型概述

TextNet是專為文本檢測設計的輕量高效模型系列，包含T/S/B三個參數量不同的變體，在自然場景文字識別等任務中表現優異。

模型特點

輕量高效

參數量僅為680萬-890萬，比傳統模型更具參數效率

性能優越

在文本檢測領域達到頂尖水平，準確率和速度均超越手工設計模型

GPU優化

架構高度高效，特別適合GPU部署場景

模型能力

自然場景文字檢測

多語言文本識別

文檔文本區域分析

使用案例

文字識別

自然場景文字識別

識別複雜背景中的文字內容

高精度檢測結果

多語言文本檢測

支持多種語言的文本識別

文檔分析

提取文檔中的文本區域

🚀 TextNet-T/S/B：高效文本檢測模型

TextNet是專門為文本檢測設計的輕量級高效架構，與MobileNetV3等傳統模型相比，性能更優。它有TextNet-T、TextNet-S和TextNet-B三種變體（參數分別為680萬、800萬和890萬），在準確性和推理速度之間實現了出色的平衡。

🚀 快速開始

安裝`transformers`庫

pip install transformers

使用示例代碼

import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")

inputs = processor(image, return_tensors="pt")
with torch.no_grad():
  outputs = model(**inputs)

✨ 主要特性

性能卓越：TextNet在文本檢測方面取得了最先進的成果，在準確性和速度上均優於手工設計的模型。其架構效率極高，非常適合基於GPU的應用。
參數高效：TextNet-T、TextNet-S和TextNet-B的參數分別僅為680萬、800萬和890萬，比ResNets和VGG16等模型在參數使用上更高效。
應用廣泛：適用於各種現實世界的文本檢測任務，包括自然場景文本識別、多語言和多方向文本檢測以及文檔文本區域分析。

📦 安裝指南

若要使用TextNet模型，可通過以下命令安裝transformers庫：

pip install transformers

💻 使用示例

基礎用法

import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")

inputs = processor(image, return_tensors="pt")
with torch.no_grad():
  outputs = model(**inputs)

📚 詳細文檔

訓練過程

我們首先將TextNet與具有代表性的手工設計骨幹網絡（如ResNets和VGG16）進行比較。為了進行公平比較，所有模型首先在IC17 - MLT [52]上進行預訓練，然後在Total - Text上進行微調。與之前的手工設計模型相比，所提出的TextNet模型在準確性和推理速度之間取得了顯著更優的平衡。此外，值得注意的是，我們的TextNet-T、TextNet-S和TextNet-B分別僅具有680萬、800萬和890萬參數，比ResNets和VGG16在參數使用上更高效。這些結果表明，TextNet模型在GPU設備上進行文本檢測非常有效。