# マルチモーダルコントラスティブラーニング

Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIPはCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。
画像分類
E
timm
165
0
Brahmai Clip V0.1
MIT
ViT-L/14とマスクドセルフアテンションTransformerを基にしたCLIPモデルで、ゼロショット画像分類研究用
テキスト生成画像 Transformers 英語
B
brahmairesearch
12.53k
0
Resnet50x64 Clip.openai
MIT
OpenCLIPライブラリのResNet50x64アーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポートします。
画像分類
R
timm
622
0
CLIP ViT B 32 CommonPool.S S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
79
0
Clip Vit Base Patch32
OpenAIが開発したCLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストの共同理解をサポート
テキスト生成画像 Transformers
C
Xenova
177.13k
8
CLIP ViT L 14 CommonPool.XL S13b B90k
MIT
CLIPアーキテクチャに基づく視覚-言語事前学習モデル、ゼロショット画像分類とクロスモーダル検索タスクをサポート
テキスト生成画像
C
laion
4,255
2
CLIP ViT B 16 DataComp.L S1b B8k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットでトレーニングされ、効率的な画像-テキストマッチングタスクをサポートします。
テキスト生成画像
C
laion
1,166
1
CLIP ViT B 16 CommonPool.L.laion S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、laion-s1B-b8Kデータセットでトレーニングされています
テキスト生成画像
C
laion
106
0
CLIP ViT B 16 CommonPool.L.text S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
58
0
CLIP ViT B 16 CommonPool.L S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
517
0
CLIP ViT B 32 CommonPool.M.clip S128m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、汎用プーリング機能をサポート
画像生成テキスト
C
laion
164
0
CLIP ViT B 32 CommonPool.M.laion S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
65
0
CLIP ViT B 32 CommonPool.M.image S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
73
0
CLIP ViT B 32 CommonPool.M.text S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
68
0
CLIP ViT B 32 CommonPool.M.basic S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
C
laion
67
0
CLIP ViT B 32 CommonPool.M S128m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデル、汎用視覚-言語タスクをサポート
テキスト生成画像
C
laion
79
0
CLIP ViT B 32 CommonPool.S.clip S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
68
0
CLIP ViT B 32 CommonPool.S.image S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
60
0
Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k
MIT
EVA02アーキテクチャに基づく大規模視覚-言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
E
timm
130
1
Eva02 Large Patch14 Clip 224.merged2b S4b B131k
MIT
EVA02はCLIPアーキテクチャに基づく大規模な視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
画像分類
E
timm
5,696
6
Vit Base Patch16 Clip 224.openai
Apache-2.0
CLIPはOpenAIが開発した視覚-言語モデルで、コントラスティブラーニングにより画像とテキストのエンコーダを訓練し、ゼロショット画像分類をサポートします。
テキスト生成画像 Transformers
V
timm
618.17k
7
Biomedvlp CXR BERT General
MIT
CXR-BERTは胸部X線分野向けに開発された専用言語モデルで、語彙と事前学習プロセスの改良により放射線学テキスト処理能力を最適化
大規模言語モデル Transformers 英語
B
microsoft
12.31k
37
Clip Vit Base Patch32
CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。
画像生成テキスト
C
openai
14.0M
666
Clip Vit Large Patch14
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
画像生成テキスト
C
openai
44.7M
1,710
Clip Vit Base Patch16
CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。
画像生成テキスト
C
openai
4.6M
119
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase