オープンソースGroupViT視覚-言語モデル - 無料でデプロイしてゼロショット意味論的セグメンテーションを実現

ホーム

Groupvit Gcc Yfcc

nvidiaによって開発

GroupViTはビジョン-ランゲージモデルで、任意の語彙カテゴリでゼロショットセマンティックセグメンテーションを実行できます。

テキスト生成画像

Transformers

#ゼロショットセマンティックセグメンテーション #ビジョン-ランゲージモデル #テキスト監視学習

ダウンロード数 3,473

リリース時間 : 6/21/2022

モデル概要

GroupViTはCLIPにインスパイアされたビジョン-ランゲージモデルで、テキスト監視学習により画像領域をグループ化し、ピクセルレベルのアノテーションなしでゼロショット転移を実現します。

モデル特徴

ゼロショットセマンティックセグメンテーション

ピクセルレベルのアノテーションが不要で、テキスト監視のみでセマンティックセグメンテーションを学習可能

階層型グループ化メカニズム

階層型グループ化ビジョントランスフォーマーにより、画像領域を段階的に大きな任意形状のセグメントにグループ化

テキスト監視学習

大規模な画像-テキストデータセットでコントラスト損失を用いてビジョンとテキストエンコーダーを共同訓練

モデル能力

画像セマンティックセグメンテーション

ゼロショット転移学習

ビジョン-ランゲージ理解

使用事例

コンピュータビジョン

セマンティックセグメンテーション

画像内のオブジェクトをセマンティックセグメンテーション

PASCAL VOC 2012で52.3% mIoU、PASCAL Contextで22.4% mIoUを達成

🚀 モデルカード: GroupViT

このチェックポイントはJiarui Xuによってアップロードされました。GroupViTは、任意の与えられた語彙カテゴリに対してゼロショットセマンティックセグメンテーションを実行できるビジョン言語モデルです。

🚀 クイックスタート

GroupViTモデルは、Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wangによる GroupViT: Semantic Segmentation Emerges from Text Supervision で提案されました。CLIP にインスパイアされたGroupViTは、与えられた任意の語彙カテゴリに対してゼロショットセマンティックセグメンテーションを実行できるビジョン言語モデルです。

モデルの日付

2022年6月

概要

グルーピングと認識は、物体検出やセマンティックセグメンテーションなど、視覚シーン理解の重要な要素です。エンドツーエンドの深層学習システムでは、画像領域のグルーピングは通常、ピクセルレベルの認識ラベルからのトップダウンの監督を通じて暗黙的に行われます。この論文では、グルーピングメカニズムをディープネットワークに戻し、テキストの監督のみでセマンティックセグメントを自動的に生成できるようにすることを提案します。階層的なGrouping Vision Transformer (GroupViT) を提案し、通常のグリッド構造表現を超えて、画像領域を徐々に大きな任意形状のセグメントにグループ化する学習を行います。大規模な画像テキストデータセット上で、テキストエンコーダと共同でGroupViTを対照損失を通じて学習させます。ピクセルレベルのアノテーションなしでテキストの監督のみで、GroupViTはセマンティック領域をグループ化し、ゼロショット方式でセマンティックセグメンテーションのタスクに成功に転用できます。PASCAL VOC 2012で52.3% mIoU、PASCAL Contextデータセットで22.4% mIoUのゼロショット精度を達成し、より高度な監督を必要とする最先端の転移学習方法と競争力を持っています。

ドキュメント

GroupViT論文

Transformersでの使用方法

from PIL import Image
import requests
from transformers import AutoProcessor, GroupViTModel

model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

📦 データ

このモデルは、公開されている画像キャプションデータで学習されました。これは、いくつかのウェブサイトをクロールし、YFCC100M などの一般的に使用されている既存の画像データセットを組み合わせて行われました。データの大部分は、インターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々や社会、つまり先進国や若い男性ユーザーに偏っていることを意味します。

より多くのコード例については、ドキュメントを参照してください。

BibTeXエントリと引用情報

@article{xu2022groupvit,
  author    = {Xu, Jiarui and De Mello, Shalini and Liu, Sifei and Byeon, Wonmin and Breuel, Thomas and Kautz, Jan and Wang, Xiaolong},
  title     = {GroupViT: Semantic Segmentation Emerges from Text Supervision},
  journal   = {arXiv preprint arXiv:2202.11094},
  year      = {2022},
}