C

Cogvlm2 Llama3 Chat 19B Int4

由THUDM開發
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型,支持中英文,具備8K上下文長度和1344*1344分辨率圖像處理能力。
下載量 467
發布時間 : 5/24/2024

模型概述

新一代CogVLM2系列開源模型,在多項基準測試中表現優異,支持高分辨率圖像理解和長文本對話。

模型特點

高性能多模態理解
在TextVQA、DocVQA等多項基準測試中表現優異,超越上一代模型
長上下文支持
支持8K長度的上下文對話
高分辨率圖像處理
支持最高1344*1344分辨率的圖像輸入
雙語支持
同時支持中文和英文的多模態對話

模型能力

多模態對話
圖像內容理解
長文本生成
文檔問答
圖表理解
OCR能力

使用案例

文檔處理
文檔問答
對上傳的文檔進行內容理解和問答
在DocVQA基準測試中達到92.3分
圖像理解
圖像內容問答
對圖像內容進行描述和問答
在TextVQA基準測試中達到85.0分
圖表分析
圖表理解
解析圖表內容並回答問題
在ChartQA基準測試中達到81.0分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase