# ドキュメント視覚質問応答

Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
文字認識
M
DeepGlint-AI
1,517
3
Pixtral 12b Quantized.w8a8
Apache-2.0
mgoin/pixtral-12bをベースとしたINT8量子化バージョン、視覚-テキストマルチモーダルタスクをサポート、推論効率を最適化
画像生成テキスト Transformers 英語
P
RedHatAI
309
1
Qwen2.5 VL 3B Instruct Quantized.w8a8
Apache-2.0
Qwen/Qwen2.5-VL-3B-Instructの量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、重みをINT8、活性化をINT8に量子化しています。
画像生成テキスト Transformers 英語
Q
RedHatAI
274
1
Florence2 EntityExtraction
MIT
Florence-2 DocVQAはMicrosoft Florence-2-largeモデルをファインチューニングしたドキュメント視覚質問応答モデルで、ドキュメント画像内の質問応答タスクに特化しています。
画像生成テキスト Transformers 英語
F
jena-shreyas
23
0
Udop Large 512 300k
MIT
UDOPは視覚、テキスト、レイアウトを統一的に処理する汎用ドキュメント処理モデルで、T5アーキテクチャに基づき、ドキュメントAIタスクに適しています。
画像生成テキスト Transformers
U
microsoft
264
32
Layoutlmv2 Base Uncased Finetuned Docvqa
LayoutLMv2アーキテクチャに基づくドキュメント視覚質問応答モデルで、ドキュメント理解タスク向けに特別にファインチューニングされています
画像生成テキスト Transformers
L
hugginglaoda
16
0
Pix2struct Docvqa Large
Apache-2.0
Pix2Structは画像エンコーダー-テキストデコーダーアーキテクチャに基づく視覚言語モデルで、ドキュメント視覚質問応答タスク向けに特別にファインチューニングされています
画像生成テキスト Transformers 複数言語対応
P
google
984
31
Layoutlmv2 Large Uncased Finetuned Vi Infovqa
microsoft/layoutlmv2-large-uncasedをベースにファインチューニングしたドキュメント視覚質問応答モデルで、ベトナム語情報抽出タスクに適しています
テキスト生成画像 Transformers
L
tiennvcs
16
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase