オープンソースのOWL-ViT物体検出モデル - 未学習のクラスの画像を検出、オープンボキャブラリは超便利！

ホーム

Owlvit Tiny Non Contiguous Weight

fxmartyによって開発

OWL-ViTは視覚Transformerベースのオープン語彙物体検出モデルで、訓練データに存在しないカテゴリの物体を画像から検出可能です。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #ゼロショット視覚認識 #非連続重みテスト #マルチモーダルアライメント

ダウンロード数 337

リリース時間 : 1/16/2024

モデル概要

OWL-ViTは視覚Transformerとテキストエンコーダを統合し、特定カテゴリの訓練なしでテキスト記述に基づき画像中の物体をリアルタイム検出できます。

モデル特徴

ゼロショット検出

特定カテゴリの訓練不要で新規物体を検出可能

マルチモーダル理解

視覚とテキスト入力を同時処理し意味的アライメントを実現

効率的なアーキテクチャ

Vision Transformerベースの軽量設計

モデル能力

オープン語彙物体検出

画像-テキストアライメント

ゼロショット学習

マルチモーダル推論

使用事例

インテリジェント監視

異常物体検出

テキスト記述に基づき監視映像中の異常物体をリアルタイム検出

訓練未経験の危険物を識別可能

小売分析

商品識別

再訓練不要で新規商品を識別

商品識別システムの維持コスト削減

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Owlvit Tiny Non Contiguous Weight

モデル概要

モデル特徴

モデル能力

使用事例

🚀 テスト用モデル

🚀 クイックスタート

📄 ライセンス