# OCR強化

Trocr Ajami
画像内容をテキスト情報に変換することに特化したモデルで、幅広い応用価値があります。
画像生成テキスト TensorBoard Other
T
TutlaytAI
139
0
Webssl Mae700m Full2b 224
これは7億パラメータの視覚Transformerモデルで、マスク付き自己符号化器による自己教師あり学習手法を用いて、20億のウェブ画像で言語監督なしに訓練されています。
画像分類 Transformers
W
facebook
15
0
Aya Vision 8b
Aya Vision 8Bはオープンウェイトの80億パラメータ多言語視覚言語モデルで、23言語の視覚と言語タスクをサポートします。
画像生成テキスト Transformers Supports Multiple Languages
A
CohereLabs
29.94k
282
Turkish LLaVA V0.1
MIT
マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚(画像)とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。
画像生成テキスト Safetensors Other
T
ytu-ce-cosmos
86
10
Vit Intern300m Patch14 448.ogvl Dist
MIT
InternViT-300MはOpenGVLabチームによって開発された視覚Transformerモデルで、InternViT-6Bから蒸留された事前学習モデルであり、様々な視覚タスクをサポートします。
画像分類 Transformers
V
timm
147
0
Idefics3 8B Llama3
Apache-2.0
Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。
画像生成テキスト Transformers English
I
HuggingFaceM4
45.86k
277
Florence 2 Large
MIT
Florence-2はマイクロソフトが開発した先進的なビジョンファウンデーションモデルで、プロンプトベースのアプローチにより幅広い視覚と言語タスクを処理します。
テキスト生成画像 Transformers
F
microsoft
579.23k
1,530
Internvit 300M 448px
MIT
InternViT-300M-448pxは、InternViT-6B-448px-V1-5から知識蒸留によって開発された効率的な視覚基盤モデルで、448×448の動的入力解像度を備え、1から40のパッチ処理をサポートします。
テキスト生成画像 Transformers
I
OpenGVLab
7,506
57
Idefics2 8b Chatty
Apache-2.0
Idefics2はオープンなマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。このモデルは画像に関する質問に答えたり、視覚的コンテンツを説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして使用したりできます。
画像生成テキスト Transformers English
I
HuggingFaceM4
617
94
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5はInternViT-6B-448px-V1-2をファインチューニングした視覚基盤モデルで、強力なロバスト性、OCR能力、高解像度処理能力を備えています。
テキスト生成画像 Transformers
I
OpenGVLab
155
79
Pix2text Table Rec
MIT
マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用
文字認識 Transformers
P
breezedeus
1,124
2
Donut Base Handwriting Recognition
MIT
naver-clova-ix/donut-baseをファインチューニングした手書き認識モデル
文字認識 Transformers
D
Cdywalst
140
1
Internvit 6B 448px V1 2
MIT
InternViT-6B-448px-V1-2は、5540万パラメータを持つ視覚基盤モデルで、448x448ピクセルの画像処理をサポートしています。
テキスト生成画像 Transformers
I
OpenGVLab
19
27
Sampel2 Docqa Layoutlmv3 Base
microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメントQAモデル、具体的なトレーニングデータセットは不明
質問応答システム Transformers
S
Tejagoud
10
0
Cogagent Vqa Hf
Apache-2.0
CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、シングルターンの視覚質問応答タスクに特化しています
テキスト生成画像 Transformers English
C
THUDM
238
49
Cogagent Chat Hf
Apache-2.0
CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、GUIエージェント、視覚的多輪対話、視覚的定位などの能力を備えています。
テキスト生成画像 Transformers English
C
THUDM
503
69
Testdocumentquestionanswering
LayoutLMv2アーキテクチャに基づく文書視覚質問応答モデルで、DocVQAタスク向けにファインチューニングされています
画像生成テキスト Transformers
T
Dhineshk
16
0
Trained Model
このモデルはmicrosoft/layoutlmv2-base-uncasedをgeneratorデータセットでファインチューニングしたバージョンで、ドキュメント理解とレイアウト分析タスクに適しています。
大規模言語モデル Transformers
T
vfu
14
0
Donut Receipt V3
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途は明記されていない
大規模言語モデル Transformers
D
mychen76
28
0
Layoutlmv2 Base Uncased Finetuned Docvqa
LayoutLMv2アーキテクチャに基づく文書視覚QAモデル、文書理解タスク向けにファインチューニング
テキスト生成画像 Transformers
L
madiltalay
14
0
Layoutlmv2 Base Uncased Finetuned Docvqa
LayoutLMv2アーキテクチャに基づくドキュメント視覚質問応答モデルで、ドキュメント理解タスク向けに特別にファインチューニングされています
画像生成テキスト Transformers
L
hugginglaoda
16
0
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングした文書理解モデルで、構造化文書情報抽出タスクに特化
文字認識 Transformers
D
enoreyes
15
0
Donut Base Bol
MIT
naver-clova-ix/donut-baseをファインチューニングした文書理解モデル、画像フォルダデータセットに適応
文字認識 Transformers
D
prakriti42
13
0
Layoutlmv2 Base Uncased Finetuned Docvqa V2
このモデルはmicrosoft/layoutlmv2-base-uncasedをドキュメント視覚QAタスクでファインチューニングしたバージョンで、ドキュメント画像内のテキストとレイアウト情報の処理に特化しています。
画像生成テキスト Transformers
L
MariaK
54
3
Donut Base Sroie
MIT
naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデルで、ドキュメント理解タスクに適しています
文字認識 Transformers
D
zahra000
16
0
Donut Base Sroie
MIT
このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。
文字認識 Transformers
D
unstructuredio
31
1
Donut Base Payslips
MIT
Donutアーキテクチャに基づく文書理解モデルで、給与明細画像処理に特化してファインチューニング
文字認識 Transformers
D
Assadullah
20
0
Donut Base Medical Handwritten Blocks Data Extraction
MIT
Donutアーキテクチャに基づくモデルで、医療手書き文書から構造化データを抽出するために特別に設計されています
文字認識 Transformers
D
mjawadazad2321
15
1
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています
文字認識 Transformers
D
philschmid
185
3
Trocr Captcha
MIT
このモデルはMITライセンスに基づくオープンソースモデルで、CER(文字誤り率)が0.0019と、特定のタスクにおいて高い精度を有しています。
大規模言語モデル Transformers
T
tomofi
37
5
Layoutlmv2 Large Uncased Finetuned Infovqa
LayoutLMv2アーキテクチャに基づく文書理解モデルで、InfoVQAタスクに対して微調整されています。
質問応答システム Transformers
L
tiennvcs
16
2
Layoutlmv2 Base Uncased Finetuned Docvqa
LayoutLMv2アーキテクチャに基づく文書ビジュアル質問応答モデルで、文書理解タスクに対して微調整されています。
テキスト生成画像 Transformers
L
tiennvcs
983
14
Layoutlm Finetuned Funsd
これはFUNSDデータセットでファインチューニングされたLayoutLMモデルで、ドキュメント/フォームのタグ分類タスク専用です。
文字認識 Transformers
L
mrm8488
97
2
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase