Vit Base Patch16 Siglip 224.v2 Webli
SigLIP 2に基づくViTモデルで、画像特徴抽出に特化し、webliデータセットで学習済み
Downloads 1,992
Release Time : 2/21/2025
Model Overview
これはSigLIP 2アーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出タスク専用です。SigLIP 2モデルの画像エンコーダ部分であり、様々なコンピュータビジョンアプリケーションに適しています。
Model Features
SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解と位置特定能力を備えています
高密度特徴抽出
高品質な高密度画像特徴表現を生成可能
Webliデータセット学習
大規模webliデータセットで事前学習されており、広範な知識カバレッジを有します
Model Capabilities
画像特徴抽出
視覚的意味理解
画像位置特定
Use Cases
コンピュータビジョン
画像検索
抽出した画像特徴を使用して類似画像検索を実施
高精度な検索結果
視覚的質問応答
VQAシステムの視覚エンコーダとして使用
画像内容の理解能力を改善
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98