G

Groupvit Gcc Yfcc

nvidiaによって開発
GroupViTはビジョン-ランゲージモデルで、任意の語彙カテゴリでゼロショットセマンティックセグメンテーションを実行できます。
ダウンロード数 3,473
リリース時間 : 6/21/2022

モデル概要

GroupViTはCLIPにインスパイアされたビジョン-ランゲージモデルで、テキスト監視学習により画像領域をグループ化し、ピクセルレベルのアノテーションなしでゼロショット転移を実現します。

モデル特徴

ゼロショットセマンティックセグメンテーション
ピクセルレベルのアノテーションが不要で、テキスト監視のみでセマンティックセグメンテーションを学習可能
階層型グループ化メカニズム
階層型グループ化ビジョントランスフォーマーにより、画像領域を段階的に大きな任意形状のセグメントにグループ化
テキスト監視学習
大規模な画像-テキストデータセットでコントラスト損失を用いてビジョンとテキストエンコーダーを共同訓練

モデル能力

画像セマンティックセグメンテーション
ゼロショット転移学習
ビジョン-ランゲージ理解

使用事例

コンピュータビジョン
セマンティックセグメンテーション
画像内のオブジェクトをセマンティックセグメンテーション
PASCAL VOC 2012で52.3% mIoU、PASCAL Contextで22.4% mIoUを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase