M

Mgp Str Base

由alibaba-damo開發
MGP-STR是一個純視覺場景文本識別模型,通過多粒度預測實現高效OCR。
下載量 4,981
發布時間 : 11/23/2022

模型概述

該模型用於文本圖像的光學字符識別(OCR),採用ViT架構和特別設計的A^3模塊,支持字符、子詞和單詞級別的多粒度預測。

模型特點

多粒度預測
同時進行字符、子詞和單詞級別的預測,並通過融合策略合併結果
純視覺架構
不依賴語言模型,僅使用視覺特徵進行文本識別
A^3模塊
特別設計的注意力模塊,用於選擇並整合有意義的令牌組合

模型能力

圖像轉文本
場景文本識別
光學字符識別(OCR)

使用案例

文檔數字化
掃描文檔識別
將掃描的文檔圖像轉換為可編輯文本
高精度識別打印體文字
場景文本識別
街景文字識別
識別照片中的街道標誌、商店招牌等文本
可處理不同字體和背景的文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase