C

Cogvlm Chat Hf

THUDMによって開発
CogVLMは強力なオープンソースの視覚言語モデルで、複数のクロスモーダルベンチマークでリーダーボード性能を達成
ダウンロード数 4,816
リリース時間 : 11/16/2023

モデル概要

CogVLMは視覚と言語処理能力を統合した視覚言語モデル(VLM)で、マルチモーダルタスクに適している

モデル特徴

マルチモーダル融合
視覚と言語処理能力を統合し、クロスモーダル理解を実現
高性能
10の主要なクロスモーダルベンチマークでリーダーボード性能を達成
視覚専門家モジュール
独自の視覚専門家モジュールが視覚理解能力を強化

モデル能力

画像キャプション生成
視覚的質問応答
クロスモーダル理解
マルチモーダル対話

使用事例

画像理解
画像キャプション生成
画像に対して正確な自然言語記述を生成
Flicker30k字幕生成タスクで優れた性能
視覚的質問応答
画像に基づく質問応答
画像内容に関する自然言語質問に回答
VQAv2、OKVQAなどのタスクで第2位
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase