Siglip2 Base Patch16 256
SigLIP 2は多言語の視覚言語エンコーダで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
Downloads 45.24k
Release Time : 2/17/2025
Model Overview
SigLIP 2はSigLIPを基盤に複数の技術を統合し、視覚言語タスクの性能を向上させ、ゼロショット画像分類や画像テキスト検索などのタスクに利用可能です。
Model Features
改良された意味理解
デコーダ損失などの技術を統合することで、モデルの意味理解能力を向上させました。
強化された位置特定能力
グローバル-ローカルおよびマスク予測損失を採用し、モデルの位置特定精度を高めました。
高密度特徴抽出
高密度特徴抽出能力を最適化し、様々な視覚タスクに適用可能です。
アスペクト比と解像度の適応性
様々なアスペクト比と解像度をサポートし、モデルの適応性を強化しました。
Model Capabilities
ゼロショット画像分類
画像テキスト検索
視覚的特徴抽出
Use Cases
画像分類
ゼロショット画像分類
微調整なしで画像を分類でき、カスタムラベルをサポートします。
複数のデータセットで優れた性能を発揮します。
画像テキスト検索
クロスモーダル検索
テキストに基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます。
WebLIデータセットで事前学習されており、強力な検索能力を備えています。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98