C

Cogvlm Grounding Generalist Hf Quant4

由Rodeszones開發
CogVLM是一款強大的開源視覺語言模型,支持目標檢測和視覺問答等任務,採用4位精度量化。
下載量 50
發布時間 : 3/5/2024

模型概述

CogVLM是一款視覺語言模型,具備強大的視覺理解和語言生成能力,支持目標檢測、圖像描述生成等任務。

模型特點

高性能跨模態能力
在10個經典跨模態基準測試中達到最先進性能,媲美PaLI-X 55B
4位量化
採用bitsandbytes 4位精度量化,降低硬件需求
目標定位能力
可生成圖像中物體的座標位置信息

模型能力

目標檢測
圖像描述生成
視覺問答
跨模態理解

使用案例

圖像分析
物體檢測與定位
識別圖像中的物體並標註座標位置
輸出格式:物體描述[[x0,y0,x1,y1]]
智能客服
視覺問答
回答關於圖像內容的自然語言問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase