OWLv2-base-patch16オープンソースビジュアル言語モデル - 無料でオブジェクト検出と位置特定を実現

ホーム

Owlv2 Base Patch16

Xenovaによって開発

OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。

物体検出

Transformers

#ゼロショット物体検出 #ONNXウェブ対応 #マルチモーダル視覚理解

ダウンロード数 17

リリース時間 : 2/9/2024

モデル概要

OWLv2は効率的な視覚言語モデルで、テキスト記述を通じて画像内の物体を検出・位置特定できます。

モデル特徴

効率的な視覚言語事前学習

視覚と言語情報を組み合わせることで、複雑な物体記述を理解可能。

Transformerアーキテクチャ採用

Transformerの強力な処理能力で視覚・言語データを扱います。

ONNX形式対応

Web展開・利用に便利なONNX形式に変換済み。

モデル能力

テキスト駆動型物体検出

画像内物体位置特定

マルチモーダル理解

使用事例

コンピュータビジョン

インテリジェント画像検索

テキスト記述で画像内の特定物体を検索。

検索精度と効率向上

自動アノテーション

画像内物体に自動でラベル付け。

手動アノテーションコスト削減

属性	详情
ベースモデル	google/owlv2-base-patch16
ライブラリ名	transformers.js

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Owlv2 Base Patch16

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Google OwlV2 Base Patch16 モデル

🚀 クイックスタート

📦 モデル情報