2025年最高の 202 個の文字認識ツール

Table Transformer Structure Recognition
MIT
PubTables1Mデータセットで訓練されたテーブルトランスフォーマーモデル、非構造化文書から表構造を抽出するために使用
文字認識 Transformers
T
microsoft
1.2M
186
Trocr Small Handwritten
TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト画像の認識に特化しています。
文字認識 Transformers
T
microsoft
517.96k
45
Table Transformer Structure Recognition V1.1 All
MIT
Transformerベースの表構造認識モデル、文書内の表構造を検出するために使用
文字認識 Transformers
T
microsoft
395.03k
70
Trocr Large Printed
Transformerベースの光学文字認識モデルで、単行の印刷体テキスト認識に適しています。
文字認識 Transformers
T
microsoft
295.59k
162
Texify
Texify は、数式画像やテキストをLaTeX形式に変換するためのOCRツールです。
文字認識 Transformers
T
vikp
206.53k
15
Trocr Base Printed
TrOCRはTransformerベースの光学文字認識モデルで、単一行テキスト画像認識のために設計されており、エンコーダー-デコーダーアーキテクチャを採用しています
文字認識 Transformers
T
microsoft
184.84k
169
Manga Ocr Base
Apache-2.0
日本語テキスト専用に設計された光学文字認識ツールで、主に日本の漫画シーン向けに最適化されています。
文字認識 Transformers 日本語
M
kha-white
130.36k
145
Tiny Random Internvl2
画像内のテキスト情報を抽出し、編集可能なテキスト内容に変換することに特化しています。
文字認識 Safetensors
T
katuni4ka
73.27k
0
Trocr Large Handwritten
TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識に特化しており、IAMデータセットで微調整されています。
文字認識 Transformers
T
microsoft
59.17k
115
Trocr Small Printed
TrOCRはTransformerベースの光学文字認識モデルで、単行文画像のOCRタスクに適しています。
文字認識 Transformers
T
microsoft
20.88k
40
Lilt Roberta En Base
MIT
言語非依存レイアウトトランスフォーマー(LiLT)は、事前学習済みのRoBERTa(英語)と事前学習済みの言語非依存レイアウトトランスフォーマー(LiLT)を組み合わせることで、あらゆる言語に対してLayoutLMのようなモデルを提供します。
文字認識 Transformers
L
SCUT-DLVCLab
12.05k
19
CRAFT
CRAFTは多言語テキスト検出モデルで、画像内のテキスト領域を検出するために設計されており、特にペルシャ語テキスト検出に適していますが、他の言語もサポートしています。
文字認識 複数言語対応
C
hezarai
11.22k
6
PP OCRv5 Server Det
Apache-2.0
PP-OCRv5_server_detはPaddleOCRチームが開発した最新世代のテキスト検出モデルで、高性能なアプリケーションシーン向けに設計されており、手書き、縦書き、回転、湾曲したテキストを含む様々なシーンのテキストを検出でき、複数の言語を認識できます。
文字認識 複数言語対応
P
PaddlePaddle
8,722
2
PP OCRv5 Server Rec
Apache-2.0
PP - OCRv5_server_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、多言語と複雑なテキストシーンの認識をサポートしています。
文字認識 複数言語対応
P
PaddlePaddle
8,601
0
Uvdoc
Apache-2.0
UVDocは主にテキスト画像に対して幾何変換を行い、画像中の文書の歪み、傾き、透視変形などの問題を修正し、後続のテキスト認識の精度を向上させます。
文字認識 複数言語対応
U
PaddlePaddle
8,072
0
Trocr Base Handwritten Hist Swe 2
Apache-2.0
スウェーデン国立公文書館などが共同開発した歴史的手書き文字認識モデルで、1600-1900年代のスウェーデン手書きテキスト向けに設計されています。
文字認識 Transformers その他
T
Riksarkivet
5,765
8
Pix2text Mfr
MIT
Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャで訓練されており、数式画像をLaTeXテキスト表現に変換できます。
文字認識 Transformers
P
breezedeus
5,753
35
Mgp Str Base
MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。
文字認識 Transformers
M
alibaba-damo
4,981
64
Texteller
Apache-2.0
TexTellerはViTアーキテクチャに基づくエンドツーエンドの数式認識モデルで、自然画像中の数学式を認識しLaTeX形式の数式に変換できます。
文字認識 Transformers
T
OleehyO
3,806
31
Trocr Large Stage1
TrOCRは、光学文字認識(OCR)タスクのためのTransformerベースの事前学習モデルです。
文字認識 Transformers
T
microsoft
3,700
25
Crnn Base Fa V2
Apache-2.0
ペルシア語向けのOCRモデルで、CNN+LSTMアーキテクチャに基づき、印刷/スキャン文書に最適化され、数字や特殊文字の認識をサポートします。
文字認識 その他
C
hezarai
3,096
6
Qari OCR 0.1 VL 2B Instruct
Apache-2.0
Qwen2 VLモデルをファインチューニングしたアラビア語OCRモデル、全ページアラビア語テキスト認識に最適化
文字認識 Transformers アラビア語
Q
NAMAA-Space
2,965
28
Crnn Fa Printed 96 Long
Apache-2.0
ペルシャ語に最適化されたOCRモデル、CNN+LSTMアーキテクチャに基づき、印刷体/スキャン文書向けに設計
文字認識 その他
C
hezarai
2,886
5
Thai Trocr
Apache-2.0
TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています
文字認識 Transformers 複数言語対応
T
openthaigpt
2,677
9
Magi
漫画解読者は、漫画内のテキストと画像要素を自動的に認識し、対応する転写テキストを生成する自動転写生成システムです。
文字認識 Transformers 英語
M
ragavsachdeva
2,575
44
Layoutlmv3 Finetuned Funsd
LayoutLMv3-baseモデルをFUNSDデータセットでファインチューニングしたドキュメント理解モデルで、フォームやドキュメントのトークン分類タスクに優れています
文字認識 Transformers
L
nielsr
2,420
25
Ko Trocr
Apache-2.0
韓国語初声認識をサポートするOCRモデルで、改良されたトークナイザーを使用して従来のTrOCRの韓国語初声認識不足の問題を解決
文字認識 Transformers 韓国語
K
ddobokki
2,035
28
Olmocr 7B Thai V1
olmOCRは、Qwen2-VL-7B-Instructをベースに微調整された光学文字認識モデルで、PDFなどの画像コンテンツをテキストに変換することに特化しており、微調整により特定シーンでの認識精度を向上させています。
文字認識 Safetensors その他
O
Adun
1,730
0
Table Transformer Structure Recognition V1.1 Pub
MIT
PubTables1Mデータセットで学習されたテーブルトランスフォーマーモデルで、ドキュメント内の表構造認識に使用されます。
文字認識 Transformers
T
microsoft
1,634
4
Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
文字認識
M
DeepGlint-AI
1,517
3
Pix2text Mfd
MIT
Pix2Textの数式検出(MFD)モデル、画像中の数式を認識する
文字認識 その他
P
breezedeus
1,369
3
Layoutlmv2 Finetuned Funsd
Microsoft LayoutLMv2 モデルを FUNSD データセットでファインチューニングしたドキュメント理解モデル
文字認識 Transformers
L
nielsr
1,319
13
PP DocLayout Plus L
Apache-2.0
PP-DocLayout_plus-Lは高精度の文書レイアウト領域定位モデルで、RT-DETR-Lアーキテクチャに基づいて訓練され、20種類の一般的な文書要素の検出をサポートします。
文字認識 複数言語対応
P
PaddlePaddle
1,308
0
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。
文字認識 複数言語対応
R
PaddlePaddle
1,144
0
RT DETR L Wired Table Cell Det
Apache-2.0
RT - DETR - L_wired_table_cell_detは表認識タスクの重要なモジュールで、主に表画像内の各セル領域を位置決めしてマーキングする役割を担います。
文字認識 複数言語対応
R
PaddlePaddle
1,144
0
Slanext Wired
Apache-2.0
SLANeXt_wiredは表構造認識に使用されるディープラーニングモデルで、編集できない表画像を編集可能な表形式(HTMLなど)に変換することができます。
文字認識 複数言語対応
S
PaddlePaddle
1,141
0
Pix2text Table Rec
MIT
マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用
文字認識 Transformers
P
breezedeus
1,124
2
Slanet Plus
Apache-2.0
SLANet_plusは表構造認識に使用されるモデルで、編集できない表画像を編集可能な表形式(HTMLなど)に変換でき、表認識システムで重要な役割を果たし、表認識の精度と効率を効果的に向上させることができます。
文字認識 複数言語対応
S
PaddlePaddle
1,121
0
Textnet Base
TextNetはテキスト検出専用に設計された軽量で効率的なアーキテクチャで、3つのバリエーションにより検出精度と推論速度の優れたバランスを実現しています。
文字認識 Transformers
T
czczup
1,061
3
PP DocBlockLayout
Apache-2.0
PP-DocBlockLayoutはRT - DETR - Lをベースに訓練された文書レイアウトブロック位置特定モデルで、様々な文書タイプのレイアウト領域を効果的に識別できます。
文字認識 複数言語対応
P
PaddlePaddle
1,039
0
Qari OCR V0.3 VL 2B Instruct
Apache-2.0
QARI-OCR v0.3は、アラビア語の構造化文書理解に特化した光学文字認識ビジョン言語モデルで、Qwen2-VL-2B-Instructをベースに構築されており、文書のレイアウトと形式を保持することに長けています。
文字認識 Transformers アラビア語
Q
NAMAA-Space
1,016
2
PP OCRv4 Server Seal Det
Apache-2.0
PP - OCRv4のサーバー側の印章テキスト検出モデルで、高い精度を持ち、サーバーデプロイに適しており、印章テキスト検出の難題を効果的に解決できます。
文字認識 複数言語対応
P
PaddlePaddle
1,013
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase