O

Owlvit Base Patch16

googleによって開発
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。
ダウンロード数 4,588
リリース時間 : 7/5/2022

モデル概要

OWL-ViTはCLIPバックボーンネットワークに基づくゼロショットテキスト条件付き物体検出モデルで、特定のカテゴリに対するトレーニングなしに、1つまたは複数のテキストクエリを使用して画像内の物体を検出できます。

モデル特徴

ゼロショット検出能力
特定のカテゴリに対するトレーニングなしに、テキストクエリを使用して新しい物体を検出可能
複数テキストクエリサポート
1つまたは複数のテキストクエリを使用して、画像内の異なる物体を同時に検出可能
オープン語彙分類
固定分類層の重みをテキスト埋め込みに置き換えることで、オープン語彙分類を実現

モデル能力

ゼロショットテキスト条件付き物体検出
画像物体位置特定
複数カテゴリ同時検出

使用事例

コンピュータビジョン研究
ゼロショット物体検出研究
モデルが未見のカテゴリに対する検出能力を研究するために使用
学際的応用
特殊物体認識
トレーニング期間中にラベルが利用できない物体を識別する必要がある分野での応用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase