C

Cogvlm2 Llama3 Chinese Chat 19B

Developed by THUDM
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。
Downloads 118
Release Time : 5/16/2024

Model Overview

新世代CogVLM2シリーズモデルは、8Kコンテキスト長と1344*1344解像度の画像入力をサポートし、多数のベンチマークテストで優れた性能を発揮します。

Model Features

マルチモーダル能力
画像とテキストの統合理解と生成をサポート
高解像度サポート
最大1344*1344解像度の画像入力をサポート
長文コンテキスト処理
8K長のコンテキスト処理をサポート
二言語サポート
中国語と英語の対話と理解を同時にサポート

Model Capabilities

画像理解
テキスト生成
マルチモーダル対話
文書分析
図表理解

Use Cases

視覚的質問応答
画像内容の質問応答
画像内容に関する様々な質問に回答
TextVQAベンチマークテストで85.0点を達成
文書処理
文書理解と質問応答
文書内容を解析し関連質問に回答
DocVQAベンチマークテストで88.4点を達成
図表分析
図表データの解釈
図表内容を理解しキー情報を抽出
ChartQAベンチマークテストで74.7点を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase