C

Cogvlm2 Llama3 Chat 19B

Developed by THUDM
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型,支持图像理解和对话任务,具有8K上下文长度和1344x1344图像分辨率处理能力。
Downloads 7,805
Release Time : 5/16/2024

Model Overview

新一代视觉语言模型,在多项基准测试中表现优异,支持中英文多模态交互。

Model Features

高性能多模态理解
在TextVQA、DocVQA等基准测试中显著优于前代模型
长上下文支持
支持8K长度的上下文记忆
高分辨率图像处理
支持最高1344x1344像素的图像输入
双语支持
提供中英文双语版本(cogvlm2-llama3-chinese-chat-19B)

Model Capabilities

图像内容理解
文档问答
图表解析
多轮对话
跨模态推理

Use Cases

文档处理
文档内容问答
解析PDF/图片文档并回答相关问题
在DocVQA基准测试中达到92.3分
视觉问答
图像内容问答
回答关于图像内容的复杂问题
在TextVQA基准测试中达到84.2分
教育辅助
图表解析
解释和分析各类数据图表
在ChartQA基准测试中达到81.0分
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase