Mlcd Vit Bigg Patch14 448
M
Mlcd Vit Bigg Patch14 448
DeepGlint-AIによって開発
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
ダウンロード数 1,517
リリース時間 : 2/12/2025
モデル概要
このモデルは深度求索AIによって開発され、2次元回転位置エンコーディング(RoPE2D)を強化した視覚Transformerアーキテクチャを採用しており、複雑な視覚-言語相互作用タスクの処理に特化しており、ドキュメント理解と視覚質問応答において優れた性能を示します。
モデル特徴
2次元回転位置エンコーディング(RoPE2D)
革新的な2次元回転位置エンコーディング技術を採用し、モデルの空間位置情報理解能力を強化
卓越したドキュメント理解能力
ドキュメント理解と視覚質問応答タスクで同類モデルを上回る性能
高解像度処理
448pxの高解像度画像入力をサポートし、より精細な視覚的特徴を捕捉可能
モデル能力
画像特徴抽出
ドキュメント理解
視覚質問応答
チャート分析
OCR強化
使用事例
ドキュメント処理
ドキュメント質問応答
複雑なドキュメントから情報を抽出し質問に回答
DocVQAデータセットで83.34%の精度を達成
表理解
ドキュメント内の表データを解析・理解
視覚質問応答
チャート分析
チャートに関する質問を理解し回答
ChartQAデータセットで73.80%の精度を達成
情報抽出
画像から構造化情報を抽出
InfoVQAデータセットで46.59%の精度を達成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98