# マルチモーダル意味理解

Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2は多言語視覚-言語エンコーダーで、SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解、位置特定、高密度特徴抽出能力を向上させました。
テキスト生成画像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2はSigLIPを基盤とした視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
テキスト生成画像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
7,632
2
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
画像生成テキスト Transformers
S
google
622.54k
20
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。
テキスト生成画像 Transformers
S
google
3,936
1
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2はSigLIPを基にした視覚言語モデルで、統一されたトレーニング手法により意味理解、位置特定、高密度特徴抽出能力を向上させています。
画像生成テキスト Transformers
S
google
4,832
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase