🚀 モデルカード: GroupViT
このチェックポイントはJiarui Xuによってアップロードされました。GroupViTは、任意の与えられた語彙カテゴリに対してゼロショットセマンティックセグメンテーションを実行できるビジョン言語モデルです。
🚀 クイックスタート
GroupViTモデルは、Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wangによる GroupViT: Semantic Segmentation Emerges from Text Supervision で提案されました。CLIP にインスパイアされたGroupViTは、与えられた任意の語彙カテゴリに対してゼロショットセマンティックセグメンテーションを実行できるビジョン言語モデルです。
モデルの日付
2022年6月
概要
グルーピングと認識は、物体検出やセマンティックセグメンテーションなど、視覚シーン理解の重要な要素です。エンドツーエンドの深層学習システムでは、画像領域のグルーピングは通常、ピクセルレベルの認識ラベルからのトップダウンの監督を通じて暗黙的に行われます。この論文では、グルーピングメカニズムをディープネットワークに戻し、テキストの監督のみでセマンティックセグメントを自動的に生成できるようにすることを提案します。階層的なGrouping Vision Transformer (GroupViT) を提案し、通常のグリッド構造表現を超えて、画像領域を徐々に大きな任意形状のセグメントにグループ化する学習を行います。大規模な画像テキストデータセット上で、テキストエンコーダと共同でGroupViTを対照損失を通じて学習させます。ピクセルレベルのアノテーションなしでテキストの監督のみで、GroupViTはセマンティック領域をグループ化し、ゼロショット方式でセマンティックセグメンテーションのタスクに成功に転用できます。PASCAL VOC 2012で52.3% mIoU、PASCAL Contextデータセットで22.4% mIoUのゼロショット精度を達成し、より高度な監督を必要とする最先端の転移学習方法と競争力を持っています。
ドキュメント
Transformersでの使用方法
from PIL import Image
import requests
from transformers import AutoProcessor, GroupViTModel
model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
📦 データ
このモデルは、公開されている画像キャプションデータで学習されました。これは、いくつかのウェブサイトをクロールし、YFCC100M などの一般的に使用されている既存の画像データセットを組み合わせて行われました。データの大部分は、インターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々や社会、つまり先進国や若い男性ユーザーに偏っていることを意味します。
より多くのコード例については、ドキュメント を参照してください。
BibTeXエントリと引用情報
@article{xu2022groupvit,
author = {Xu, Jiarui and De Mello, Shalini and Liu, Sifei and Byeon, Wonmin and Breuel, Thomas and Kautz, Jan and Wang, Xiaolong},
title = {GroupViT: Semantic Segmentation Emerges from Text Supervision},
journal = {arXiv preprint arXiv:2202.11094},
year = {2022},
}