M

Mlcd Vit Bigg Patch14 448

由DeepGlint-AI開發
MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型,在文檔理解和視覺問答任務中表現卓越。
下載量 1,517
發布時間 : 2/12/2025

模型概述

該模型由深度求索AI開發,採用二維旋轉位置編碼(RoPE2D)增強的視覺Transformer架構,專門用於處理複雜視覺-語言交互任務,在文檔理解和視覺問答方面表現出色。

模型特點

二維旋轉位置編碼(RoPE2D)
採用創新的二維旋轉位置編碼技術,增強了模型對空間位置信息的理解能力
卓越的文檔理解能力
在文檔理解和視覺問答任務中表現優於同類模型
高分辨率處理
支持448px高分辨率圖像輸入,能捕捉更精細的視覺特徵

模型能力

圖像特徵提取
文檔理解
視覺問答
圖表分析
OCR增強

使用案例

文檔處理
文檔問答
從複雜文檔中提取信息並回答問題
在DocVQA數據集上達到83.34%的準確率
表格理解
解析和理解文檔中的表格數據
視覺問答
圖表分析
理解和回答關於圖表的問題
在ChartQA數據集上達到73.80%的準確率
信息提取
從圖像中提取結構化信息
在InfoVQA數據集上達到46.59%的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase