C

Cogvlm Chat Hf

由THUDM開發
CogVLM是一個強大的開源視覺語言模型,在多個跨模態基準測試中取得領先性能
下載量 4,816
發布時間 : 11/16/2023

模型概述

CogVLM是一個視覺語言模型(VLM),結合了視覺和語言處理能力,適用於多模態任務

模型特點

多模態融合
結合視覺和語言處理能力,實現跨模態理解
高性能
在10個經典跨模態基準測試中取得領先性能
視覺專家模塊
獨特的視覺專家模塊增強視覺理解能力

模型能力

圖像描述生成
視覺問答
跨模態理解
多模態對話

使用案例

圖像理解
圖像描述生成
為圖像生成準確的自然語言描述
在Flicker30k字幕生成任務中表現優異
視覺問答
基於圖像的問答
回答關於圖像內容的自然語言問題
在VQAv2、OKVQA等任務中位列第二
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase