C

Cogagent Chat Hf

THUDMによって開発
CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、GUIエージェント、視覚的多輪対話、視覚的定位などの能力を備えています。
ダウンロード数 503
リリース時間 : 12/15/2023

モデル概要

CogAgentは高性能な視覚言語モデルで、GUIエージェントタスクと視覚対話に特化し、1120x1120の高解像度画像入力をサポートします。

モデル特徴

高解像度視覚処理
1120x1120の超高解像度画像入力をサポートし、より精細な視覚理解能力を提供
GUIエージェント機能
ウェブページ、PCおよびモバイルアプリケーションを含む様々なGUIインターフェースを理解し操作可能
強化された視覚的定位
画像内でオブジェクトの位置を正確に特定し記述
多輪視覚対話
画像に基づく深い多輪対話をサポート

モデル能力

視覚的質問応答
GUI操作計画
画像内容記述
視覚的定位
多輪対話
OCR強化

使用事例

GUI自動化
ウェブページ自動操作
ウェブページスクリーンショットに基づき操作手順を生成
AITWおよびMind2Webデータセットで優れた性能
視覚的質問応答
複雑画像理解
複雑な画像に関する質問に回答
9つのクロスモーダルベンチマークテストでトップレベルを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase