M

Mlcd Vit Bigg Patch14 448

DeepGlint-AIによって開発
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
ダウンロード数 1,517
リリース時間 : 2/12/2025

モデル概要

このモデルは深度求索AIによって開発され、2次元回転位置エンコーディング(RoPE2D)を強化した視覚Transformerアーキテクチャを採用しており、複雑な視覚-言語相互作用タスクの処理に特化しており、ドキュメント理解と視覚質問応答において優れた性能を示します。

モデル特徴

2次元回転位置エンコーディング(RoPE2D)
革新的な2次元回転位置エンコーディング技術を採用し、モデルの空間位置情報理解能力を強化
卓越したドキュメント理解能力
ドキュメント理解と視覚質問応答タスクで同類モデルを上回る性能
高解像度処理
448pxの高解像度画像入力をサポートし、より精細な視覚的特徴を捕捉可能

モデル能力

画像特徴抽出
ドキュメント理解
視覚質問応答
チャート分析
OCR強化

使用事例

ドキュメント処理
ドキュメント質問応答
複雑なドキュメントから情報を抽出し質問に回答
DocVQAデータセットで83.34%の精度を達成
表理解
ドキュメント内の表データを解析・理解
視覚質問応答
チャート分析
チャートに関する質問を理解し回答
ChartQAデータセットで73.80%の精度を達成
情報抽出
画像から構造化情報を抽出
InfoVQAデータセットで46.59%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase