# 密な特徴抽出

Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。
画像生成テキスト Transformers
S
google
44.75k
38
Vit Large Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
SigLIP 2アーキテクチャに基づく視覚Transformerモデルで、グローバル平均プーリング(GAP)のバリアントを採用し、注意プーリングヘッドを削除、画像特徴抽出タスクに適しています。
テキスト生成画像 Transformers
V
timm
95
0
Vit Giantopt Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング処理を採用し、注意プーリングヘッドを削除した画像特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
21
0
Vit Giantopt Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
SigLIP 2 ViT画像エンコーダー、グローバル平均プーリングを採用、アテンションプーリングヘッドを削除、timm向けに設計
画像分類 Transformers
V
timm
17
0
Vit Base Patch32 Siglip 256.v2 Webli
Apache-2.0
SigLIP 2アーキテクチャに基づく視覚Transformerモデル、画像特徴抽出専用に設計
テキスト生成画像 Transformers
V
timm
27
0
Vit Base Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング(GAP)を使用してアテンションプーリングヘッドを置き換え、画像特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
105
0
Vit Base Patch16 Siglip 384.v2 Webli
Apache-2.0
SigLIP 2ベースの視覚トランスフォーマーモデル、画像特徴抽出用に設計、webliデータセットで事前学習済み
テキスト生成画像 Transformers
V
timm
330
0
Vit Gopt 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
1,953
1
Vit SO400M 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
テキスト生成画像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
998
0
Vit SO400M 14 SigLIP2
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
1,178
0
Vit L 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
1,442
1
Vit B 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
テキスト生成画像
V
timm
1,497
0
Vit B 16 SigLIP2
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
10.32k
4
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
画像生成テキスト Transformers
S
google
622.54k
20
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。
テキスト生成画像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
4,416
8
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した視覚言語モデルです。
テキスト生成画像 Transformers
S
google
28.01k
10
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2はSigLIPを基に改良されたバージョンで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
9,419
4
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase