C

Cogvlm2 Llama3 Chinese Chat 19B

由THUDM開發
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持中英雙語,具備強大的圖像理解和對話能力。
下載量 118
發布時間 : 5/16/2024

模型概述

新一代CogVLM2系列模型,支持8K上下文長度和1344*1344分辨率圖像輸入,在多項基準測試中表現優異。

模型特點

多模態能力
支持圖像和文本的聯合理解與生成
高分辨率支持
最高支持1344*1344分辨率的圖像輸入
長上下文處理
支持8K長度的上下文處理
雙語支持
同時支持中文和英文的對話與理解

模型能力

圖像理解
文本生成
多模態對話
文檔分析
圖表理解

使用案例

視覺問答
圖像內容問答
回答關於圖像內容的各類問題
在TextVQA基準測試中達到85.0分
文檔處理
文檔理解與問答
解析文檔內容並回答相關問題
在DocVQA基準測試中達到88.4分
圖表分析
圖表數據解讀
理解圖表內容並提取關鍵信息
在ChartQA基準測試中達到74.7分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase