# マルチモーダル事前学習

MAKE
ビジュアル - 言語事前学習技術に基づくゼロショット皮膚病評価モデルで、多面的な知識を統合して強化し、皮膚病の研究と診断に有効なツールを提供します。
テキスト生成画像
M
xieji-x
108
2
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
Vision Transformerアーキテクチャに基づく視覚モデルで、SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法を採用し、画像理解タスクに適しています。
画像分類 Transformers
S
p1atdev
66
0
Comp SigLIP So400M
Apache-2.0
CoMP-MM-1Bはネイティブ画像解像度入力をサポートする視覚基盤モデル(VFM)で、SigLIPを基に継続事前学習されています。
マルチモーダル融合
C
SliMM-X
33
1
Yoloe 11l Seg
YOLOEはリアルタイム視覚万能モデルで、ゼロショット物体検出など様々な視覚タスクをサポートします。
物体検出
Y
jameslahm
219
2
Yoloe V8l Seg
YOLOEはリアルタイム視覚万能モデルで、物体検出と視覚理解能力を組み合わせ、様々な視覚タスクに適用可能です。
物体検出
Y
jameslahm
4,135
1
Yoloe V8s Seg
YOLOE はゼロショット物体検出モデルで、視覚シーン中の様々な物体をリアルタイムに検出できます。
物体検出
Y
jameslahm
28
0
Aimv2 Large Patch14 448.apple Pt
AIM-v2はtimmライブラリを基にした画像特徴抽出モデルで、大規模パッチ設計を採用し、高解像度画像処理に適しています。
画像分類 Transformers
A
timm
68
0
Aimv2 Huge Patch14 224.apple Pt
AIM-v2はtimmライブラリをベースにした効率的な画像エンコーダで、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
93
0
Aimv2 3b Patch14 448.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、3Bパラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
35
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2は効率的な画像エンコーダーモデルで、timmフレームワークと互換性があり、コンピュータビジョンタスクに適しています。
画像分類 Transformers
A
timm
50
0
Aimv2 1b Patch14 336.apple Pt
AIM-v2はApple社が開発した画像エンコーダモデルで、timmライブラリ互換のアーキテクチャを基にしており、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
65
0
Resnet101 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet101画像エンコーダー、グローバル平均プーリング(GAP)による画像特徴抽出
画像分類 Transformers
R
timm
104
0
Resnet50x4 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet50x4バリアントモデルで、画像特徴抽出用に設計
画像分類 Transformers
R
timm
170
0
Resnet50 Clip Gap.openai
Apache-2.0
CLIPモデルの視覚エンコーダ部分に基づくResNet50バリアントで、グローバル平均プーリング(GAP)により画像特徴を抽出
画像分類 Transformers
R
timm
250
1
Resnet50 Clip Gap.cc12m
Apache-2.0
ResNet50アーキテクチャに基づくCLIPスタイルの画像エンコーダー、CC12Mデータセットでトレーニングされ、グローバル平均プーリング(GAP)で特徴を抽出
画像分類 Transformers
R
timm
19
0
Vit Huge Patch14 Clip Quickgelu 378.dfn5b
その他
CLIPアーキテクチャに基づくViT-Huge画像エンコーダ、DFN5Bデータセットでトレーニングされ、高速GELU活性化をサポート
画像分類 Transformers
V
timm
27
0
Vit Huge Patch14 Clip 378.dfn5b
その他
DFN5B-CLIPの視覚エンコーダ部分、ViT-Hugeアーキテクチャに基づき、378x378解像度の画像で訓練されたCLIPモデル
画像分類 Transformers
V
timm
461
0
Vit Base Patch16 Clip 224.dfn2b
その他
CLIPアーキテクチャに基づくVision Transformerモデル、Apple社が公開したDFN2B-CLIP画像エンコーダーの重み
画像分類 Transformers
V
timm
444
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
SigLIP画像エンコーダーに基づく視覚モデルで、グローバル平均プーリングを採用し、PaliGemmaプロジェクトの一部です
テキスト生成画像 Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
SigLIP画像エンコーダーに基づく視覚モデルで、グローバル平均プーリングを備えており、PaliGemma2モデルの一部です
テキスト生成画像 Transformers
V
timm
57
1
Vit So400m Patch14 Siglip Gap 896.pali2 3b Pt
Apache-2.0
SigLIP画像エンコーダーに基づく視覚モデルで、グローバル平均プーリングを採用し、PaliGemma2プロジェクトの一部です
テキスト生成画像 Transformers
V
timm
14
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
SigLIP画像エンコーダーに基づく視覚言語モデルで、グローバル平均プーリング処理を採用し、マルチモーダルタスクに適しています。
テキスト生成画像 Transformers
V
timm
15
0
Vit So400m Patch14 Siglip 378.webli
Apache-2.0
SigLIPベースの視覚Transformerモデルで、画像エンコーダーのみを含み、オリジナルのアテンションプーリングメカニズムを採用しています。
画像分類 Transformers
V
timm
82
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデルで、グローバル平均プーリングを採用し、画像特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
13
0
Vit Base Patch16 Siglip 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
64
1
Vit Base Patch16 Siglip 256.webli
Apache-2.0
SigLIPベースのViT-B-16画像エンコーダーモデルで、オリジナルアテンションプーリングを採用し、画像特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
269
1
Vit Base Patch16 Siglip Gap 224.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダーのみを含み、グローバル平均プーリング戦略を採用
画像分類 Transformers
V
timm
178
1
Vit Base Patch16 Siglip 224.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
330
1
Vit Large Patch14 Clip 224.laion2b
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出に特化
画像分類 Transformers
V
timm
502
0
Vit Large Patch14 Clip 224.datacompxl
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出専用にLAION組織によって公開されました。
画像分類 Transformers
V
timm
14
0
Vit Huge Patch14 Clip 224.laion2b
Apache-2.0
CLIPフレームワークに基づくViT-Huge視覚エンコーダ、laion2Bデータセットでトレーニング済み、画像特徴抽出をサポート
画像分類 Transformers
V
timm
1,969
0
Vit Base Patch32 Clip 256.datacompxl
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデル、256x256解像度の入力をサポートする画像特徴抽出に特化
画像分類 Transformers
V
timm
89
0
Vit Base Patch32 Clip 224.laion2b
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出用に設計、laion2Bデータセットで学習
画像分類 Transformers
V
timm
83
0
Vit Base Patch32 Clip 224.datacompxl
Apache-2.0
CLIPアーキテクチャに基づくVision Transformerモデルで、画像特徴抽出のために設計され、DataComp XLデータセットで学習済み
画像分類 Transformers
V
timm
13
0
Vit Base Patch16 Clip 224.datacompxl
Apache-2.0
CLIPアーキテクチャに基づくビジョントランスフォーマーモデルで、画像特徴抽出に特化しており、ViT-B/16構造を採用しDataComp XLデータセットでトレーニング
画像分類 Transformers
V
timm
36
0
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
CLIPフレームワークに基づくConvNeXt-XXLarge画像エンコーダー、LAIONによってトレーニングされ、マルチモーダルタスクに適しています
画像分類 Transformers
C
timm
220
0
Convnext Base.clip Laiona
Apache-2.0
CLIPフレームワークに基づくConvNeXt Baseモデルで、LAION-Aestheticデータセットでトレーニングされ、画像特徴抽出タスクに適しています。
画像分類 Transformers
C
timm
14
0
Convnext Base.clip Laion2b Augreg
Apache-2.0
CLIPフレームワークに基づくConvNeXt Base画像エンコーダー、LAION-2Bデータセットでトレーニングされ、画像特徴抽出をサポート
画像分類 Transformers
C
timm
522
0
Convnext Base.clip Laion2b
Apache-2.0
ConvNeXtアーキテクチャに基づくCLIP画像エンコーダー、LAION組織によってトレーニングされ、マルチモーダル視覚-言語タスクに適しています
画像分類 Transformers
C
timm
297
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase