L

Layoutlmv2 Large Uncased Finetuned Vi Infovqa

tiennvcsによって開発
microsoft/layoutlmv2-large-uncasedをベースにファインチューニングしたドキュメント視覚質問応答モデルで、ベトナム語情報抽出タスクに適しています
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

このモデルはドキュメント視覚質問応答(VQA)タスク向けに最適化されたLayoutLMv2モデルで、特にベトナム語情報抽出シナリオに適応し、ドキュメントのレイアウトと視覚情報を理解して質問に答えることができます

モデル特徴

マルチモーダル理解能力
テキスト、レイアウト、視覚情報を統合的に理解する
ベトナム語最適化
ベトナム語のドキュメント情報抽出タスク向けに特別にファインチューニングされています
ドキュメント構造認識
ドキュメントのレイアウトや構造情報を理解できます

モデル能力

ドキュメント視覚質問応答
ベトナム語情報抽出
ドキュメントレイアウト分析
マルチモーダル理解

使用事例

ドキュメント処理
ベトナム語フォーム情報抽出
ベトナム語のフォームドキュメントから自動的にキー情報を抽出します
ドキュメント視覚質問応答システム
ドキュメント内容に関する自然言語の質問に答えます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase