C

Cogagent Chat Hf

由THUDM開發
CogAgent是基於CogVLM改進的開源視覺語言模型,具備GUI智能體、視覺多輪對話和視覺定位等能力。
下載量 503
發布時間 : 12/15/2023

模型概述

CogAgent是一個高性能的視覺語言模型,專注於GUI智能體任務和視覺對話,支持1120x1120高分辨率圖像輸入。

模型特點

高分辨率視覺處理
支持1120x1120超高分辨率圖像輸入,提供更精細的視覺理解能力
GUI智能體功能
能夠理解和操作各種GUI界面,包括網頁、PC和移動應用
增強的視覺定位
在圖像中精確定位和描述對象位置
多輪視覺對話
支持基於圖像的深入多輪對話

模型能力

視覺問答
GUI操作規劃
圖像內容描述
視覺定位
多輪對話
OCR增強

使用案例

GUI自動化
網頁自動化操作
根據網頁截圖生成操作步驟
在AITW和Mind2Web數據集上表現優異
視覺問答
複雜圖像理解
回答關於複雜圖像的問題
在9個跨模態基準測試中達到頂尖水平
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase