T

Trocr Large Str

microsoftによって開発
TrOCRはTransformerベースの光学文字認識モデルで、単行テキスト画像向けに設計され、複数の標準データセットでファインチューニングされています。
ダウンロード数 571
リリース時間 : 9/8/2022

モデル概要

TrOCRモデルは画像TransformerエンコーダーとテキストTransformerデコーダーを組み合わせており、画像からテキスト内容を効率的に認識できます。

モデル特徴

Transformerアーキテクチャベース
先進的なTransformerアーキテクチャを採用し、画像とテキスト処理能力を統合
複数データセットでのファインチューニング
IC13、IC15、IIIT5K、SVTなどの標準データセットでファインチューニング済み
事前学習モデルによる初期化
画像エンコーダーはBEiTで、テキストデコーダーはRoBERTaで初期化

モデル能力

単行テキスト画像認識
光学文字認識
画像からテキストへの変換

使用事例

文書デジタル化
スキャン文書認識
スキャンした紙文書を編集可能なテキストに変換
高精度なテキスト変換
シーンテキスト認識
街中の文字認識
写真に写った道路標識や広告文字を認識
様々なフォントや背景の文字を認識可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase