C

Cogvlm2 Llama3 Chat 19B

由THUDM開發
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持圖像理解和對話任務,具有8K上下文長度和1344x1344圖像分辨率處理能力。
下載量 7,805
發布時間 : 5/16/2024

模型概述

新一代視覺語言模型,在多項基準測試中表現優異,支持中英文多模態交互。

模型特點

高性能多模態理解
在TextVQA、DocVQA等基準測試中顯著優於前代模型
長上下文支持
支持8K長度的上下文記憶
高分辨率圖像處理
支持最高1344x1344像素的圖像輸入
雙語支持
提供中英文雙語版本(cogvlm2-llama3-chinese-chat-19B)

模型能力

圖像內容理解
文檔問答
圖表解析
多輪對話
跨模態推理

使用案例

文檔處理
文檔內容問答
解析PDF/圖片文檔並回答相關問題
在DocVQA基準測試中達到92.3分
視覺問答
圖像內容問答
回答關於圖像內容的複雜問題
在TextVQA基準測試中達到84.2分
教育輔助
圖表解析
解釋和分析各類數據圖表
在ChartQA基準測試中達到81.0分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase