# 高精度OCR

En PP OCRv4 Mobile Rec
Apache-2.0
PaddleOCRチームが開発した超軽量級の英文テキスト行認識モデルで、英文と数字文字の認識をサポートします。
文字認識 複数言語対応
E
PaddlePaddle
303
0
Slanext Wired
Apache-2.0
SLANeXt_wiredは表構造認識に使用されるディープラーニングモデルで、編集できない表画像を編集可能な表形式(HTMLなど)に変換することができます。
文字認識 複数言語対応
S
PaddlePaddle
1,141
0
PP OCRv5 Server Det
Apache-2.0
PP-OCRv5_server_detはPaddleOCRチームが開発した最新世代のテキスト検出モデルで、高性能なアプリケーションシーン向けに設計されており、手書き、縦書き、回転、湾曲したテキストを含む様々なシーンのテキストを検出でき、複数の言語を認識できます。
文字認識 複数言語対応
P
PaddlePaddle
8,722
2
Llama 3.1 Nemotron Nano VL 8B V1
その他
Llama-3.1-Nemotron-Nano-VL-8B-V1は、高度な文書インテリジェントビジュアル言語モデルで、画像や動画のクエリと要約が可能で、複数の環境にデプロイできます。
画像生成テキスト Transformers
L
nvidia
1,092
66
Olmocr 7B Faithful
Apache-2.0
olmOCR-7B-0225-previewをファインチューニングしたバージョンで、文書内の全ての情報(ヘッダー・フッター内容を含む)を完全に抽出することに特化しています。
大規模言語モデル Transformers 英語
O
tngtech
201
8
Space Model
Apache-2.0
Qwen2.5-VL-32B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、マルチモーダルタスク処理をサポートします。
画像生成テキスト Transformers 複数言語対応
S
Alhdrawi
58
1
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。
テキスト生成画像 Transformers 英語
Q
christopherthompson81
68
3
Sapnous VR 6B
Apache-2.0
Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。
画像生成テキスト Transformers 英語
S
Sapnous-AI
261
5
Aya Vision 32b
Aya Vision 32BはCohereラボが開発したオープンウェイト32Bパラメータのマルチモーダルモデルで、23言語の視覚言語タスクをサポートします。
画像生成テキスト Transformers 複数言語対応
A
CohereLabs
387
193
Qwen2.5 VL 72B Instruct AWQ
その他
Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。
テキスト生成画像 Transformers 英語
Q
Benasd
173
6
Typhoon2 Qwen2vl 7b Vision Instruct
Apache-2.0
Typhoon2-Visionはタイ語をサポートする視覚言語モデルで、画像や動画の入力を処理でき、特に画像ベースのアプリケーション向けに最適化されています。
テキスト生成画像 Transformers 複数言語対応
T
scb10x
793
11
Paligemma2 3b Mix 224
PaliGemma 2はGoogleが開発したアップグレード版の視覚言語モデルで、Gemma 2の能力を組み合わせ、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
15.23k
28
TF ID Base
MIT
TF-IDは学術論文から表や図表およびそのキャプションを抽出するための物体検出モデルシリーズです。
画像生成テキスト Transformers
T
yifeihu
408
36
TF ID Large
MIT
TF-IDは学術論文中の表や図表を抽出するために特別に設計された視覚的物体検出モデルで、Florence-2をファインチューニングして作成されました
物体検出 Transformers
T
yifeihu
9,893
21
Pix2text Mfr Quantized
MIT
Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャに基づいて訓練され、数式画像をLaTeXテキスト表現に変換します。
文字認識 Transformers
P
Brian314
37
0
Pix2text Mfd
MIT
Pix2Textの数式検出(MFD)モデル、画像中の数式を認識する
文字認識 その他
P
breezedeus
1,369
3
Extract Matic
MIT
SparrowはDonut MLベースモデルを請求書データで微調整した文書データ抽出モデルで、Donutの企業文書における性能検証を目的としています。
画像生成テキスト Transformers 英語
E
ssraut
17
0
Extract Matic
MIT
SparrowはDonut MLベースモデルを請求書データで微調整した文書データ抽出ツールで、企業文書におけるDonutの性能検証を目的としています。
画像生成テキスト Transformers 英語
E
PCS
17
0
Final Model
Apache-2.0
このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。
文字認識 Transformers
F
goatrider
17
0
OCR TextInput Base
金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。
文字認識 Transformers 英語
O
rohit5895
31
0
Output LayoutLMv3 V7
microsoft/layoutlmv3-baseをファインチューニングしたドキュメント理解モデルで、ドキュメントレイアウト分析タスクに優れています
文字認識 Transformers
O
Noureddinesa
18
1
Minicpm V 2
MiniCPM-V 2.0は効率的なエンドサイド展開に向けた強力なマルチモーダル大規模言語モデルで、SigLip-400MとMiniCPM-2.4Bを基盤に構築され、知覚器リサンプラーで接続されています。
テキスト生成画像 Transformers 複数言語対応
M
openbmb
9,097
461
Trocr Base Plate Number
Apache-2.0
画像からナンバープレート番号を抽出できる車両ナンバープレート認識用の視覚モデルです。
文字認識 Transformers
T
ristek-dsa
29
0
Moai 7B
MIT
MoAIは大規模な言語と視覚の混合モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト Transformers
M
BK-Lee
183
45
Pix2text Mfr
MIT
Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャで訓練されており、数式画像をLaTeXテキスト表現に変換できます。
文字認識 Transformers
P
breezedeus
5,753
35
Trocr Base Printed License Plates Ocr Timestamp
microsoft/trocr-base-printedをファインチューニングしたOCRモデルで、ナンバープレートとタイムスタンプ情報の認識に特化
文字認識 Transformers
T
PQAshwin
132
1
Nougat For Formula
Apache-2.0
Nougat-smallをファインチューニングした数式認識モデルで、画像からLaTeX数式コードを抽出するのに優れています
画像生成テキスト Transformers
N
CuiSiwei
40
5
Donut Demo
MIT
CORD-v2は、画像からテキストを抽出・認識するタスク向けのモデルで、主に画像からテキストコンテンツを抽出するために使用されます。
文字認識 Transformers
D
zhongren2
20
0
Finetune Donut Cord V2.5
Openrail
これはDonutアーキテクチャに基づく視覚言語モデルで、CORD-V2データセットに対して特別にファインチューニングされており、文書画像からテキストへの変換タスクに使用されます。
画像生成テキスト Transformers
F
fahmiaziz
97
3
Nougat
このモデルは旧式です。公式のNougatモデルの使用を推奨します。Nougatは、ドキュメント理解と分析に特化した先進的な視覚言語モデルです。
画像生成テキスト Transformers
N
nielsr
14
4
Trocr MICR
e13b MICRコードの転写に特化したOCRモデルで、MicrosoftのTrOCR-large-stage1をファインチューニングしたものです。
文字認識 Transformers 英語
T
Apocalypse-19
94
1
Pix2struct Tiny Random
MIT
これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。
画像生成テキスト Transformers
P
fxmarty
60.87k
2
General Image Captioning
Apache-2.0
これはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。
文字認識 Transformers その他
G
alibidaran
30
0
Thesisdonut
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要
画像生成テキスト Transformers
T
Humayoun
13
0
Layoutlmv3 Finetuned DocLayNet
LayoutLMv3アーキテクチャをファインチューニングしたドキュメントレイアウト分析モデルで、DocLayNetデータセット内のドキュメント要素分類タスク専用に設計されています。
文字認識 Transformers 英語
L
Mit1208
226
1
Invoices Donut Model V1
MIT
SparrowはDonut ML基本モデルを請求書データで微調整した文書データ抽出モデルで、企業文書におけるDonutの性能検証を目的としています。
画像生成テキスト Transformers 英語
I
katanaml-org
216
38
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。
画像生成テキスト
M
laion
21.02k
20
Donut Demo
MIT
これはCORD-v2データセットでファインチューニングされたDonutモデルで、画像からテキストへの変換タスク向けに設計されており、平均精度は0.901です。
画像生成テキスト Transformers
D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
microsoft/layoutlmv3-baseをnielsr/funsd-layoutlmv3データセットでファインチューニングしたドキュメント理解モデル
文字認識 Transformers
L
Narsil
799
0
Mgp Str Base
MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。
文字認識 Transformers
M
alibaba-damo
4,981
64
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase