# ゼロショット画像分類

Metaclip B32 Fullcc2.5b
MetaCLIPはCommonCrawl(CC)の25億データポイントで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。
テキスト生成画像 Transformers
M
facebook
413
7
Fg Clip Base
Apache-2.0
FG-CLIPは細粒度視覚とテキストのアラインメントモデルで、2段階のトレーニングによりグローバルおよび領域レベルの画像-テキストアラインメントを実現します。
テキスト生成画像 Transformers 英語
F
qihoo360
692
2
Openvision Vit Base Patch16 224
Apache-2.0
OpenVisionは、完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
79
0
Openvision Vit Large Patch14 224
Apache-2.0
OpenVisionは、完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
308
4
OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
SigLIPアーキテクチャに基づく軽量な視覚言語モデルで、より大きなSigLIP-400mモデルから蒸留技術を用いて知識を抽出し、ゼロショット画像分類タスクに適しています。
画像分類
O
PumeTu
30
0
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。
画像生成テキスト Transformers
S
google
44.75k
38
Clip Backdoor Vit B16 Cc3m Blto Cifar
MIT
これは、コントラスティブ言語画像事前トレーニングにおけるバックドアサンプル検出を研究するための事前トレーニングモデルで、特定のバックドアトリガーBLTOを含んでいます。
テキスト生成画像 英語
C
hanxunh
9
0
Vit Gopt 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
1,953
1
Vit Gopt 16 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
43.20k
0
Vit SO400M 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
テキスト生成画像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
998
0
Vit SO400M 14 SigLIP2 378
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
1,596
1
Vit SO400M 14 SigLIP2
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
1,178
0
Vit L 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
147
2
Vit L 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
1,442
1
Vit B 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
テキスト生成画像
V
timm
1,497
0
Vit B 16 SigLIP2
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
10.32k
4
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2は多言語視覚-言語エンコーダーで、SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解、位置特定、高密度特徴抽出能力を向上させました。
テキスト生成画像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2はSigLIPを基盤とした視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
テキスト生成画像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
画像生成テキスト Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 は SigLIP を改良した多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
画像生成テキスト Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。
テキスト生成画像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 は SigLIP を基に改良された多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
テキスト生成画像 Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 は SigLIP を改良した視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した視覚言語モデルです。
テキスト生成画像 Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2はSigLIPを基にした視覚言語モデルで、統一されたトレーニング手法により意味理解、位置特定、高密度特徴抽出能力を向上させています。
画像生成テキスト Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2は多言語の視覚言語エンコーダで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
画像生成テキスト Transformers
S
google
45.24k
4
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2はSigLIPを基に改良されたバージョンで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
9,419
4
Mme5 Mllama 11b Instruct
MIT
mmE5はLlama-3.2-11B-Visionでトレーニングされたマルチモーダル多言語埋め込みモデルで、高品質な合成データにより埋め込み性能を向上させ、MMEBベンチマークで最先端のレベルを達成しました。
マルチモーダル融合 Transformers 複数言語対応
M
intfloat
596
18
CLIP ViT H 14 Laion2b S32b B79k
MIT
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
テキスト生成画像
C
ModelsLab
132
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase