C

Cogagent Vqa Hf

THUDMによって開発
CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、シングルターンの視覚質問応答タスクに特化しています
ダウンロード数 238
リリース時間 : 12/16/2023

モデル概要

CogAgentは強力な視覚言語モデルで、特にシングルターンの視覚質問応答能力を最適化し、1120x1120の高解像度画像入力をサポートし、複数のVQAベンチマークテストで優れた性能を発揮します

モデル特徴

高解像度画像処理
1120x1120の超高解像度画像入力をサポートし、より細かい視覚的詳細を捉えることができます
卓越したVQA性能
VQAv2、MM-Vetなど9つのクロスモーダルベンチマークテストでトップレベルを達成
最適化されたシングルターン質問応答
シングルターンの視覚質問応答タスクに特化して最適化されており、チャットバージョンに比べてVQAタスクでより優れた性能を発揮します

モデル能力

視覚質問応答
画像理解
テキスト生成
高解像度画像処理

使用事例

教育
教材画像質問応答
教材の図表やイラストに関する様々な質問に回答
図表の内容を正確に理解し正しい回答を生成
ビジネス
ビジネス図表分析
ビジネスレポート内の各種図表データを分析
図表情報を正確に抽出し分析結果を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase