O

Owlvit Large Patch14

googleによって開発
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
ダウンロード数 25.01k
リリース時間 : 7/5/2022

モデル概要

OWL-ViTはマルチモーダルバックボーンとしてCLIPを使用し、視覚トランスフォーマーとテキストエンコーダを組み合わせて、オープン語彙の物体検出を実現します。

モデル特徴

ゼロショット検出能力
特定のカテゴリのトレーニングなしで新しいオブジェクトを検出でき、テキスト記述だけで検出タスクを実行可能
マルチモーダルアーキテクチャ
視覚トランスフォーマーとテキストエンコーダを組み合わせ、画像とテキストの統合理解を実現
オープン語彙分類
動的な分類層重みの置換により、任意のテキスト記述のカテゴリ認識をサポート

モデル能力

テキスト条件付き物体検出
オープン語彙オブジェクト認識
マルチモーダル画像理解

使用事例

コンピュータビジョン研究
ゼロショット物体検出研究
未見カテゴリにおけるモデルの検出能力を探索
学際的応用
特殊オブジェクト認識
医療、産業などの分野でトレーニングデータに稀なオブジェクトを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase