# ドキュメント理解

Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instructの量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、INT8重み量子化により推論効率を最適化
画像生成テキスト Transformers 英語
Q
RedHatAI
1,992
3
H2ovl Mississippi 800m
Apache-2.0
H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮
画像生成テキスト Transformers 英語
H
h2oai
77.67k
33
Idefics3 8B Llama3
Apache-2.0
Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。
画像生成テキスト Transformers 英語
I
HuggingFaceM4
45.86k
277
Horus OCR
Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。
画像生成テキスト Transformers
H
TeeA
21
0
Fine Tuned Rvl Cdip
microsoft/layoutlmv3-baseモデルをドキュメント画像分類タスクでファインチューニングしたバージョンで、評価セットでF1スコア0.8177を達成
文字認識 Transformers
F
davidhajdu
21
1
Donut Base Handwriting Recognition
MIT
naver-clova-ix/donut-baseをファインチューニングした手書き認識モデル
文字認識 Transformers
D
Cdywalst
140
1
Docllm Baichuan2 7b
DocLLM_reimplementation はドキュメント理解タスクに特化した大規模言語モデルの再実装プロジェクトで、ドキュメント理解能力の再実装と改善を目的としています。
大規模言語モデル Transformers
D
JinghuiLuAstronaut
185
5
Donut 240202
MIT
Yazawa/donut-base-sroieをファインチューニングしたドキュメント理解モデルで、構造化ドキュメント情報抽出タスクに適しています
文字認識 Transformers
D
Yazawa
93
0
Donut Receipt V3
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途は明記されていない
大規模言語モデル Transformers
D
mychen76
28
0
Donut Receipt V2
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデルで、レシート認識やドキュメント理解タスクに使用可能
大規模言語モデル Transformers
D
mychen76
31
0
Donut Base Sroie
MIT
naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません
文字認識 Transformers
D
iamkhadke
13
0
Donut Trained Example 3
MIT
Donutアーキテクチャに基づくファインチューニングモデル、具体的な用途と機能はより多くの情報が必要
大規模言語モデル Transformers
D
anarenteriare
14
0
Donut Trained Example 2
MIT
naver-clova-ix/donut-baseをベースにファインチューニングしたモデル、具体的な用途は明記されていません
大規模言語モデル Transformers
D
anarenteriare
13
0
Donut Base Receipt V3
MIT
naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル
大規模言語モデル Transformers
D
hyunguk1
13
0
Donut Base Receipt
MIT
naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル
大規模言語モデル Transformers
D
hyunguk1
19
0
Donut Base Ru
MIT
naver-clova-ix/donut-baseをベースにファインチューニングしたモデル、具体的な用途は明記されていません
大規模言語モデル Transformers
D
Nyaaneet
21
1
Donut Demo
MIT
これはCORD-v2データセットでファインチューニングされたDonutモデルで、画像からテキストへの変換タスク向けに設計されており、平均精度は0.901です。
画像生成テキスト Transformers
D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
microsoft/layoutlmv3-baseをnielsr/funsd-layoutlmv3データセットでファインチューニングしたドキュメント理解モデル
文字認識 Transformers
L
Narsil
799
0
Donut Base Sroie
MIT
このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。
文字認識 Transformers
D
unstructuredio
31
1
Dof Invoice 1
MIT
naver-clova-ix/donut-baseをファインチューニングした請求書処理モデル
画像生成テキスト Transformers
D
Sebabrata
13
0
Donut Base Label Studio 200 Invoices
MIT
Donutアーキテクチャに基づく請求書認識モデル、200枚の請求書データセットで微調整
文字認識 Transformers
D
Prem11100
18
0
Donut Base Sroie
MIT
philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル
文字認識 Transformers
D
Prem11100
13
0
Lilt Infoxlm Base
MIT
LiLT-InfoXLMは言語非依存のレイアウトトランスフォーマーモデルで、事前学習済みのInfoXLMと言語非依存レイアウトトランスフォーマー(LiLT)を組み合わせたもので、構造化ドキュメント理解タスクに適しています。
マルチモーダル融合 Transformers
L
SCUT-DLVCLab
110
5
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています
文字認識 Transformers
D
philschmid
185
3
Donut Demo
MIT
CORD-v2データセットでファインチューニングされたVisionEncoderDecoderモデル、ドキュメント理解タスク用
文字認識 Transformers
D
nielsr
56
1
Layoutlmv3 Finetuned Wildreceipt
LayoutLMv3-baseモデルをWildReceipt領収書データセットでファインチューンしたバージョンで、領収書のキー情報抽出タスクに使用されます
文字認識 Transformers
L
Theivaprakasham
118
3
Layoutlmv3 Finetuned Invoice
LayoutLMv3アーキテクチャをファインチューニングした請求書情報抽出モデルで、SROIEデータセットで優れた性能を発揮
文字認識 Transformers
L
ronak1998
71
3
Layoutlmv3 Finetuned Invoice
請求書データセットでLayoutLMv3-baseをファインチューニングしたバージョンで、請求書情報抽出に使用
文字認識 Transformers
L
Theivaprakasham
896
20
Layoutlmv3 Finetuned Cord
LayoutLMv3をCORDデータセットでファインチューニングしたドキュメント理解モデルで、ドキュメントトークン分類タスクに優れています
文字認識 Transformers
L
nielsr
617
12
Layoutlmv3 Finetuned Funsd
LayoutLMv3-baseモデルをFUNSDデータセットでファインチューニングしたドキュメント理解モデルで、フォームやドキュメントのトークン分類タスクに優れています
文字認識 Transformers
L
nielsr
2,420
25
Layoutlmv2 Finetuned Cord
microsoft/layoutlmv2-base-uncasedモデルを未知のデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています
文字認識 Transformers
L
speydach
17
0
Layoutlmv2 Finetuned Cord
CORDデータセットでファインチューニングされたLayoutLMv2アーキテクチャに基づくドキュメント理解モデル、構造化ドキュメント情報抽出タスクに適しています
文字認識 Transformers
L
katanaml
29
3
Layoutlmv2 Finetuned Funsd
Microsoft LayoutLMv2 モデルを FUNSD データセットでファインチューニングしたドキュメント理解モデル
文字認識 Transformers
L
nielsr
1,319
13
Layoutlmv2 Finetuned Sroie Mod
microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメント理解モデル、構造化文書情報抽出タスクに適応
大規模言語モデル Transformers
L
Theivaprakasham
37
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase