Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。
画像生成テキスト
Transformers

S
google
44.75k
38
Vit So400m Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、注意プーリングヘッドを削除、画像特徴抽出タスクに適しています。
画像分類
Transformers

V
timm
19
0
Vit Giantopt Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリング処理を採用し、注意プーリングヘッドを削除した画像特徴抽出タスクに適しています。
画像分類
Transformers

V
timm
21
0
Vit Base Patch32 Siglip Gap 256.v2 Webli
Apache-2.0
SigLIP 2を基にした視覚Transformerモデルで、アテンションプーリングヘッドの代わりにグローバル平均プーリング(GAP)を使用した画像エンコーダ
テキスト生成画像
Transformers

V
timm
25
1
Vit Gopt 16 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
43.20k
0
Vit SO400M 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
テキスト生成画像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
998
0
Vit SO400M 14 SigLIP2 378
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
1,596
1
Vit SO400M 14 SigLIP2
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
1,178
0
Vit L 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
147
2
Vit L 16 SigLIP2 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
テキスト生成画像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
1,442
1
Vit B 16 SigLIP2
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
10.32k
4
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像
Transformers

S
google
2,729
0
Siglip So400m Patch16 256 I18n
Apache-2.0
SoViTバックボーンネットワークを基盤とし、シグモイド損失関数を改良したマルチモーダルモデルで、ゼロショット画像分類と画像テキスト検索をサポート
画像生成テキスト
Transformers

S
google
230
29
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト
Transformers

S
google
6.1M
526
Siglip Base Patch16 256 Multilingual
Apache-2.0
SigLIPはWebLiデータセットで事前学習された改良版CLIPモデルで、Sigmoid損失関数を使用して画像-テキストマッチングタスクを最適化
テキスト生成画像
Transformers

S
google
175.86k
44
Siglip Base Patch16 512
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚-言語モデルで、改良されたシグモイド損失関数を採用し、画像分類と画像テキスト検索タスクで優れた性能を発揮します。
テキスト生成画像
Transformers

S
google
237.79k
24
Vit B 16 SigLIP 512
Apache-2.0
WebLIデータセットで訓練されたSigLIP(Sigmoid損失言語画像事前学習)モデル、ゼロショット画像分類タスク用
テキスト生成画像
V
timm
3,787
7
Vit B 16 SigLIP I18n 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習用のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
87.92k
3
Vit SO400M 14 SigLIP 384
Apache-2.0
WebLIデータセットで学習されたSigLIP(言語-画像事前学習のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
158.84k
79
Vit SO400M 14 SigLIP
Apache-2.0
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習用Sigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
79.55k
17
Vit L 16 SigLIP 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP(Sigmoid Loss for Language-Image Pre-training)モデルで、ゼロショット画像分類タスクに使用されます。
テキスト生成画像
V
timm
3,008
27
Vit L 16 SigLIP 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP(Sigmoid損失を用いた言語画像事前学習)モデルで、ゼロショット画像分類タスクに使用されます。
テキスト生成画像
V
timm
1,516
1
Vit B 16 SigLIP 384
Apache-2.0
WebLIデータセットで訓練されたSigLIP(Sigmoid損失言語画像事前学習)モデルで、ゼロショット画像分類タスクに使用されます
テキスト生成画像
V
timm
4,119
4
Vit B 16 SigLIP 256
Apache-2.0
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
17.15k
1
Siglip Base Patch16 224
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化
画像生成テキスト
Transformers

S
google
250.28k
43
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98