🚀 TextNet-T/S/B:高效文本檢測模型
TextNet是專門為文本檢測設計的輕量級高效架構,與MobileNetV3等傳統模型相比,性能更優。它有TextNet-T、TextNet-S和TextNet-B三種變體(參數分別為680萬、800萬和890萬),在準確性和推理速度之間實現了出色的平衡。
🚀 快速開始
安裝transformers
庫
pip install transformers
使用示例代碼
import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
✨ 主要特性
- 性能卓越:TextNet在文本檢測方面取得了最先進的成果,在準確性和速度上均優於手工設計的模型。其架構效率極高,非常適合基於GPU的應用。
- 參數高效:TextNet-T、TextNet-S和TextNet-B的參數分別僅為680萬、800萬和890萬,比ResNets和VGG16等模型在參數使用上更高效。
- 應用廣泛:適用於各種現實世界的文本檢測任務,包括自然場景文本識別、多語言和多方向文本檢測以及文檔文本區域分析。
📦 安裝指南
若要使用TextNet模型,可通過以下命令安裝transformers
庫:
pip install transformers
💻 使用示例
基礎用法
import torch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoBackbone
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("jadechoghari/textnet-base")
model = AutoBackbone.from_pretrained("jadechoghari/textnet-base")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
📚 詳細文檔
訓練過程
我們首先將TextNet與具有代表性的手工設計骨幹網絡(如ResNets和VGG16)進行比較。為了進行公平比較,所有模型首先在IC17 - MLT [52]上進行預訓練,然後在Total - Text上進行微調。與之前的手工設計模型相比,所提出的TextNet模型在準確性和推理速度之間取得了顯著更優的平衡。此外,值得注意的是,我們的TextNet-T、TextNet-S和TextNet-B分別僅具有680萬、800萬和890萬參數,比ResNets和VGG16在參數使用上更高效。這些結果表明,TextNet模型在GPU設備上進行文本檢測非常有效。
應用場景
TextNet非常適合現實世界的文本檢測任務,包括:
- 自然場景文本識別
- 多語言和多方向文本檢測
- 文檔文本區域分析
📄 許可證
文檔中未提及相關許可證信息。
貢獻者
該模型由 Raghavan、jadechoghari 和 nielsr 貢獻。