C

Cogagent Vqa Hf

由THUDM開發
CogAgent是基於CogVLM改進的開源視覺語言模型,專注於單輪視覺問答任務
下載量 238
發布時間 : 12/16/2023

模型概述

CogAgent是一個強大的視覺語言模型,特別優化了單輪視覺問答能力,支持1120x1120高分辨率圖像輸入,在多個VQA基準測試上表現優異

模型特點

高分辨率圖像處理
支持1120x1120超高分辨率圖像輸入,能捕捉更精細的視覺細節
卓越的VQA性能
在9個跨模態基準測試中達到頂尖水平,包括VQAv2、MM-Vet等
優化的單輪問答
專門針對單輪視覺問答任務進行優化,相比chat版本在VQA任務上表現更優

模型能力

視覺問答
圖像理解
文本生成
高分辨率圖像處理

使用案例

教育
教材圖像問答
回答關於教材圖表、插圖的各類問題
準確理解圖表內容並生成正確回答
商業
商業圖表分析
分析商業報告中的各類圖表數據
準確提取圖表信息並生成分析結果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase