C

Cogvlm2 Llama3 Chat 19B

THUDMによって開発
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。
ダウンロード数 7,805
リリース時間 : 5/16/2024

モデル概要

新世代の視覚言語モデルで、多数のベンチマークテストで優れた性能を発揮し、中英語のマルチモーダルインタラクションをサポートします。

モデル特徴

高性能マルチモーダル理解
TextVQA、DocVQAなどのベンチマークテストで前世代モデルを大幅に上回る性能
長文脈サポート
8K長のコンテキストメモリをサポート
高解像度画像処理
最大1344x1344ピクセルの画像入力をサポート
二言語サポート
中英語二言語バージョンを提供(cogvlm2-llama3-chinese-chat-19B)

モデル能力

画像内容理解
文書質問応答
図表解析
マルチターン対話
クロスモーダル推論

使用事例

文書処理
文書内容質問応答
PDF/画像文書を解析し関連質問に回答
DocVQAベンチマークテストで92.3点を達成
視覚質問応答
画像内容質問応答
画像内容に関する複雑な質問に回答
TextVQAベンチマークテストで84.2点を達成
教育支援
図表解析
各種データ図表の説明と分析
ChartQAベンチマークテストで81.0点を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase