C

Cogvlm2 Llama3 Chat 19B Int4

THUDMによって開発
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。
ダウンロード数 467
リリース時間 : 5/24/2024

モデル概要

新世代のCogVLM2シリーズオープンモデルで、複数のベンチマークテストで優れた性能を発揮し、高解像度画像理解と長文対話をサポートします。

モデル特徴

高性能マルチモーダル理解
TextVQA、DocVQAなどのベンチマークテストで優れた性能を発揮し、前世代モデルを凌駕
長文コンテキストサポート
8K長のコンテキスト対話をサポート
高解像度画像処理
最大1344*1344解像度の画像入力をサポート
バイリンガルサポート
中国語と英語のマルチモーダル対話を同時にサポート

モデル能力

マルチモーダル対話
画像内容理解
長文生成
ドキュメントQA
チャート理解
OCR能力

使用事例

ドキュメント処理
ドキュメントQA
アップロードされたドキュメントの内容理解とQA
DocVQAベンチマークテストで92.3点を達成
画像理解
画像内容QA
画像内容の説明とQA
TextVQAベンチマークテストで85.0点を達成
チャート分析
チャート理解
チャート内容を解析し質問に回答
ChartQAベンチマークテストで81.0点を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase