すべてのカテゴリ

文字認識

2025年最高の 202 個の文字認識ツール

Table Transformer Structure Recognition

PubTables1Mデータセットで訓練されたテーブルトランスフォーマーモデル、非構造化文書から表構造を抽出するために使用

Trocr Small Handwritten

TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト画像の認識に特化しています。

Table Transformer Structure Recognition V1.1 All

Transformerベースの表構造認識モデル、文書内の表構造を検出するために使用

Trocr Large Printed

Transformerベースの光学文字認識モデルで、単行の印刷体テキスト認識に適しています。

Texify は、数式画像やテキストをLaTeX形式に変換するためのOCRツールです。

Trocr Base Printed

TrOCRはTransformerベースの光学文字認識モデルで、単一行テキスト画像認識のために設計されており、エンコーダー-デコーダーアーキテクチャを採用しています

日本語テキスト専用に設計された光学文字認識ツールで、主に日本の漫画シーン向けに最適化されています。

Transformers 日本語

Tiny Random Internvl2

画像内のテキスト情報を抽出し、編集可能なテキスト内容に変換することに特化しています。

Trocr Large Handwritten

TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識に特化しており、IAMデータセットで微調整されています。

Trocr Small Printed

TrOCRはTransformerベースの光学文字認識モデルで、単行文画像のOCRタスクに適しています。

Lilt Roberta En Base

言語非依存レイアウトトランスフォーマー（LiLT）は、事前学習済みのRoBERTa（英語）と事前学習済みの言語非依存レイアウトトランスフォーマー（LiLT）を組み合わせることで、あらゆる言語に対してLayoutLMのようなモデルを提供します。

CRAFTは多言語テキスト検出モデルで、画像内のテキスト領域を検出するために設計されており、特にペルシャ語テキスト検出に適していますが、他の言語もサポートしています。

文字認識複数言語対応

PP OCRv5 Server Det

PP-OCRv5_server_detはPaddleOCRチームが開発した最新世代のテキスト検出モデルで、高性能なアプリケーションシーン向けに設計されており、手書き、縦書き、回転、湾曲したテキストを含む様々なシーンのテキストを検出でき、複数の言語を認識できます。

文字認識複数言語対応

PP OCRv5 Server Rec

PP - OCRv5_server_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、多言語と複雑なテキストシーンの認識をサポートしています。

文字認識複数言語対応

UVDocは主にテキスト画像に対して幾何変換を行い、画像中の文書の歪み、傾き、透視変形などの問題を修正し、後続のテキスト認識の精度を向上させます。

文字認識複数言語対応

Trocr Base Handwritten Hist Swe 2

スウェーデン国立公文書館などが共同開発した歴史的手書き文字認識モデルで、1600-1900年代のスウェーデン手書きテキスト向けに設計されています。

Transformers その他

Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャで訓練されており、数式画像をLaTeXテキスト表現に変換できます。

MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。

TexTellerはViTアーキテクチャに基づくエンドツーエンドの数式認識モデルで、自然画像中の数学式を認識しLaTeX形式の数式に変換できます。

Trocr Large Stage1

TrOCRは、光学文字認識（OCR）タスクのためのTransformerベースの事前学習モデルです。

Crnn Base Fa V2

ペルシア語向けのOCRモデルで、CNN+LSTMアーキテクチャに基づき、印刷/スキャン文書に最適化され、数字や特殊文字の認識をサポートします。

文字認識その他

Qari OCR 0.1 VL 2B Instruct

Qwen2 VLモデルをファインチューニングしたアラビア語OCRモデル、全ページアラビア語テキスト認識に最適化

Transformers アラビア語

Crnn Fa Printed 96 Long

ペルシャ語に最適化されたOCRモデル、CNN+LSTMアーキテクチャに基づき、印刷体/スキャン文書向けに設計

文字認識その他

TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています

Transformers 複数言語対応

漫画解読者は、漫画内のテキストと画像要素を自動的に認識し、対応する転写テキストを生成する自動転写生成システムです。

Transformers 英語

Layoutlmv3 Finetuned Funsd

LayoutLMv3-baseモデルをFUNSDデータセットでファインチューニングしたドキュメント理解モデルで、フォームやドキュメントのトークン分類タスクに優れています

韓国語初声認識をサポートするOCRモデルで、改良されたトークナイザーを使用して従来のTrOCRの韓国語初声認識不足の問題を解決

Transformers 韓国語

Olmocr 7B Thai V1

olmOCRは、Qwen2-VL-7B-Instructをベースに微調整された光学文字認識モデルで、PDFなどの画像コンテンツをテキストに変換することに特化しており、微調整により特定シーンでの認識精度を向上させています。

Safetensors その他

Table Transformer Structure Recognition V1.1 Pub

PubTables1Mデータセットで学習されたテーブルトランスフォーマーモデルで、ドキュメント内の表構造認識に使用されます。

Mlcd Vit Bigg Patch14 448

MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。

Pix2Textの数式検出(MFD)モデル、画像中の数式を認識する

文字認識その他

Layoutlmv2 Finetuned Funsd

Microsoft LayoutLMv2 モデルを FUNSD データセットでファインチューニングしたドキュメント理解モデル

PP DocLayout Plus L

PP-DocLayout_plus-Lは高精度の文書レイアウト領域定位モデルで、RT-DETR-Lアーキテクチャに基づいて訓練され、20種類の一般的な文書要素の検出をサポートします。

文字認識複数言語対応

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。

文字認識複数言語対応

RT DETR L Wired Table Cell Det

RT - DETR - L_wired_table_cell_detは表認識タスクの重要なモジュールで、主に表画像内の各セル領域を位置決めしてマーキングする役割を担います。

文字認識複数言語対応

SLANeXt_wiredは表構造認識に使用されるディープラーニングモデルで、編集できない表画像を編集可能な表形式（HTMLなど）に変換することができます。

文字認識複数言語対応

Pix2text Table Rec

マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用

SLANet_plusは表構造認識に使用されるモデルで、編集できない表画像を編集可能な表形式（HTMLなど）に変換でき、表認識システムで重要な役割を果たし、表認識の精度と効率を効果的に向上させることができます。

文字認識複数言語対応

TextNetはテキスト検出専用に設計された軽量で効率的なアーキテクチャで、3つのバリエーションにより検出精度と推論速度の優れたバランスを実現しています。

PP DocBlockLayout

PP-DocBlockLayoutはRT - DETR - Lをベースに訓練された文書レイアウトブロック位置特定モデルで、様々な文書タイプのレイアウト領域を効果的に識別できます。

文字認識複数言語対応

Qari OCR V0.3 VL 2B Instruct

QARI-OCR v0.3は、アラビア語の構造化文書理解に特化した光学文字認識ビジョン言語モデルで、Qwen2-VL-2B-Instructをベースに構築されており、文書のレイアウトと形式を保持することに長けています。

Transformers アラビア語

PP OCRv4 Server Seal Det

PP - OCRv4のサーバー側の印章テキスト検出モデルで、高い精度を持ち、サーバーデプロイに適しており、印章テキスト検出の難題を効果的に解決できます。

文字認識複数言語対応

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase