C

Cogvlm Grounding Generalist Hf

由THUDM開發
CogVLM 是一個強大的開源視覺語言模型(VLM),在多個跨模態基準測試上取得了SOTA性能。
下載量 702
發布時間 : 11/17/2023

模型概述

CogVLM 是一個視覺語言模型,能夠理解和生成與圖像相關的文本描述,支持多模態對話和物體定位。

模型特點

多模態理解
能夠同時處理視覺和語言信息,實現圖像與文本的深度交互
高性能
在10個經典跨模態基準測試上取得SOTA性能,部分任務超越PaLI-X 55B
物體定位能力
可提供圖像中提及物體的座標位置信息
開源模型
代碼和模型權重開放,便於研究和應用

模型能力

圖像描述生成
視覺問答
多模態對話
物體檢測與定位
跨模態理解

使用案例

圖像理解
自動圖像標註
為圖像生成詳細描述文本
在COCO captioning等基準測試中表現優異
視覺問答
回答關於圖像內容的自然語言問題
在VQAv2、OKVQA等基準測試中排名第二
人機交互
多模態對話
基於圖像內容的自然語言對話
支持複雜的圖像相關對話交互
計算機視覺輔助
物體定位
識別圖像中物體並提供座標位置
可輸出物體邊界框座標[[x0,y0,x1,y1]]
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase