M

Mgp Str Base

alibaba-damoによって開発
MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。
ダウンロード数 4,981
リリース時間 : 11/23/2022

モデル概要

このモデルはテキスト画像の光学文字認識(OCR)に使用され、ViTアーキテクチャと特別に設計されたA^3モジュールを採用し、文字、サブワード、単語レベルのマルチグレイン予測をサポートします。

モデル特徴

マルチグレイン予測
文字、サブワード、単語レベルの予測を同時に行い、融合戦略で結果を統合
純粋ビジュアルアーキテクチャ
言語モデルに依存せず、視覚的特徴のみを使用してテキスト認識を行う
A^3モジュール
意味のあるトークンの組み合わせを選択・統合するために特別に設計されたアテンションモジュール

モデル能力

画像からテキストへ
シーンテキスト認識
光学文字認識(OCR)

使用事例

文書デジタル化
スキャン文書認識
スキャンした文書画像を編集可能なテキストに変換
高精度な印刷文字認識
シーンテキスト認識
街中の文字認識
写真中の道路標識、店舗看板などのテキストを認識
異なるフォントや背景のテキストを処理可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase