# マルチモーダルコントラスト学習

PE Core B16 224
Apache-2.0
知覚エンコーダーは、シンプルな視覚-言語学習でトレーニングされた最先端の画像およびビデオ理解エンコーダーで、さまざまな視覚タスクで最先端の性能を実現しています。
テキスト生成画像
P
facebook
9,663
11
PE Core G14 448
Apache-2.0
知覚エンコーダ(PE)は、シンプルな視覚-言語学習によってトレーニングされた最先端の画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を達成しています。
テキスト生成画像
P
facebook
22.83k
14
PE Core L14 336
Apache-2.0
Metaが開発した大規模視覚エンコーダモデル。コントラスト事前学習と合成ビデオデータによる微調整を経て、様々な視覚タスクで最先端の性能を達成
テキスト生成画像
P
facebook
11.52k
34
Sail Clip Hendrix 10epochs
openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て
テキスト生成画像 Transformers
S
cringgaard
49
0
Vit SO400M 14 SigLIP2
Apache-2.0
WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
1,178
0
Vit H 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2モデル、効率的なコントラスト型画像テキストモデルで、ゼロショット画像分類タスク向けに設計されています。
テキスト生成画像
V
UCSC-VLAA
65
1
Vit H 14 CLIPA 336 Laion2b
Apache-2.0
CLIPA-v2モデル、laion2B-enデータセットでトレーニングされ、ゼロショット画像分類タスクに特化
テキスト生成画像
V
UCSC-VLAA
74
4
CLIP ViT B 32 Laion2b E16
MIT
OpenCLIPで実装された視覚-言語事前学習モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
justram
89
0
CLIP ViT B 16 CommonPool.L.clip S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
138
0
CLIP ViT B 32 DataComp.M S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、DataComp.Mデータセットで学習済み
テキスト生成画像
C
laion
212
0
CLIP ViT B 32 DataComp.S S13m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットで訓練されており、様々な視覚タスクをサポートします。
テキスト生成画像
C
laion
92
0
CLIP ViT B 32 CommonPool.S.laion S13m B4k
MIT
CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
58
0
Vit Large Patch14 Clip 336.openai
Apache-2.0
OpenAIが開発したCLIPモデル、ViT-L/14アーキテクチャを採用、ゼロショット画像分類タスクをサポート
テキスト生成画像
V
timm
35.62k
2
Align Base
ALIGNは視覚-言語デュアルエンコーダーモデルで、コントラスト学習により画像とテキスト表現のアラインメントを実現し、大規模ノイズデータを活用して先進的なクロスモーダル表現効果を達成します。
マルチモーダルアライメント Transformers 英語
A
kakaobrain
78.28k
25
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像 Transformers 英語
F
patrickjohncyh
3.8M
222
Altclip
Openrail
AltCLIPはシンプルで効率的なバイリンガルCLIPモデルで、中国語と英語の画像テキスト表現タスクをサポートします。
テキスト生成画像 Transformers 複数言語対応
A
BAAI
12.78k
28
Clip Rsicd V2
OpenAI CLIPをファインチューニングしたリモートセンシング画像専用モデル、ゼロショット分類とクロスモーダル検索能力を向上
テキスト生成画像
C
flax-community
3,229
23
Clip Italian
Gpl-3.0
イタリア語に特化した初のコントラスト言語-画像事前学習モデルで、イタリア語BERTとViTアーキテクチャを基盤とし、わずか140万サンプルのファインチューニングで競争力のある性能を実現
テキスト生成画像 その他
C
clip-italian
960
16
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase