C

Cogvlm Grounding Generalist Hf Quant4

Rodeszonesによって開発
CogVLMは強力なオープンソースの視覚言語モデルで、物体検出や視覚的質問応答などのタスクをサポートし、4ビット精度の量子化を採用しています。
ダウンロード数 50
リリース時間 : 3/5/2024

モデル概要

CogVLMは視覚言語モデルで、強力な視覚理解と言語生成能力を備え、物体検出、画像キャプション生成などのタスクをサポートします。

モデル特徴

高性能クロスモーダル能力
10の古典的なクロスモーダルベンチマークテストで最先端の性能を達成し、PaLI-X 55Bに匹敵します
4ビット量子化
bitsandbytesの4ビット精度量子化を採用し、ハードウェア要件を低減
物体位置特定能力
画像内の物体の座標位置情報を生成可能

モデル能力

物体検出
画像キャプション生成
視覚的質問応答
クロスモーダル理解

使用事例

画像分析
物体検出と位置特定
画像内の物体を識別し、座標位置を注釈
出力形式:物体記述[[x0,y0,x1,y1]]
インテリジェントカスタマーサポート
視覚的質問応答
画像内容に関する自然言語質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase