# クロスモーダル検索

Metaclip B32 Fullcc2.5b
MetaCLIPはCommonCrawl(CC)の25億データポイントで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。
テキスト生成画像 Transformers
M
facebook
413
7
Openvision Vit So400m Patch14 384
Apache-2.0
OpenVisionは、完全にオープンでコスト効率の高い高度なビジョンエンコーダのファミリーで、マルチモーダル学習に使用されます。
マルチモーダル融合
O
UCSC-VLAA
238
0
Openvision Vit Tiny Patch8 224
Apache-2.0
OpenVisionは完全オープンで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
123
0
Openvision Vit Tiny Patch16 384
Apache-2.0
OpenVisionは完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
O
UCSC-VLAA
19
0
Unime LLaVA OneVision 7B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習フレームワークで、テキスト識別知識蒸留とハードネガティブサンプル増強の指示チューニング戦略により、マルチモーダル埋め込み能力を大幅に向上させています。
マルチモーダルアライメント Transformers 英語
U
DeepGlint-AI
376
2
Unime LLaVA 1.6 7B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、336×336の画像解像度でトレーニングされ、MMEBランキングで1位を獲得しています。
画像生成テキスト Transformers 英語
U
DeepGlint-AI
188
3
So400m Long
Apache-2.0
SigLIP 2を微調整した視覚言語モデルで、最大テキスト長を64から256トークンに拡張
テキスト生成画像 Transformers 英語
S
fancyfeast
27
3
Omniembed V0.1
MIT
Qwen2.5-Omni-7Bをベースに構築されたマルチモーダル埋め込みモデルで、多言語テキスト、画像、音声、動画の統一された埋め込み表現をサポート
マルチモーダル融合
O
Tevatron
2,190
3
Mme5 Mllama 11b Instruct
MIT
mmE5はLlama-3.2-11B-Visionでトレーニングされたマルチモーダル多言語埋め込みモデルで、高品質な合成データにより埋め込み性能を向上させ、MMEBベンチマークで最先端のレベルを達成しました。
マルチモーダル融合 Transformers 複数言語対応
M
intfloat
596
18
Conceptclip
MIT
ConceptCLIPは医学的概念を強化した大規模視覚言語事前学習モデルで、様々な医療画像モダリティに対応し、多様な医療画像タスクで堅牢な性能を発揮します。
画像生成テキスト Transformers 英語
C
JerrryNie
836
1
Mexma Siglip
MIT
MEXMA-SigLIPは多言語テキストエンコーダーと画像エンコーダーを組み合わせた高性能CLIPモデルで、80言語をサポートしています。
テキスト生成画像 Safetensors 複数言語対応
M
visheratin
137
3
LLM2CLIP Openai L 14 224
Apache-2.0
LLM2CLIPは、大規模言語モデル(LLM)を活用してCLIPの潜在能力を解放する革新的な手法で、対照学習フレームワークを通じてテキスト識別性を向上させ、元のCLIPテキストエンコーダーの制限を突破します。
テキスト生成画像 Safetensors
L
microsoft
108
5
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIPは革新的な手法で、大規模言語モデルによってCLIPのクロスモーダル能力を強化し、視覚とテキスト表現の識別力を大幅に向上させます。
マルチモーダル融合
L
microsoft
18.16k
35
LLM2CLIP Openai B 16
Apache-2.0
LLM2CLIPは大規模言語モデル(LLM)を活用してCLIPの能力を拡張する革新的な手法で、対照学習フレームワークを通じてテキストの識別性を向上させ、クロスモーダルタスクの性能を大幅に向上させます。
テキスト生成画像 Safetensors
L
microsoft
1,154
18
LLM2CLIP EVA02 L 14 336
Apache-2.0
LLM2CLIPは革新的な手法で、大規模言語モデル(LLM)を用いてCLIPの視覚表現能力を強化し、クロスモーダルタスクの性能を大幅に向上させます
テキスト生成画像 PyTorch
L
microsoft
75
60
RS M CLIP
MIT
リモートセンシング分野向けの多言語視覚-言語事前学習モデル、10言語の画像-テキストクロスモーダルタスクをサポート
画像生成テキスト 複数言語対応
R
joaodaniel
248
1
E5 V
E5-Vはマルチモーダル大規模言語モデルに基づく汎用埋め込み手法で、テキストと画像の入力を処理し統一された埋め込み表現を生成できます。
マルチモーダルアライメント Transformers
E
royokong
5,619
22
Safeclip Vit L 14
Safe-CLIPはCLIPモデルをベースにした強化型の視覚と言語モデルで、AIアプリケーションにおけるNSFW(職場に不適切な)コンテンツに関連するリスクを低減することを目的としています。
テキスト生成画像 Transformers
S
aimagelab
931
3
Video Llava
Vision Transformerアーキテクチャに基づく大規模視覚言語モデルで、画像とテキストのクロスモーダル理解をサポート
テキスト生成画像
V
AnasMohamed
194
0
Nomic Embed Vision V1.5
Apache-2.0
高性能視覚埋め込みモデル、nomic-embed-text-v1.5と同一の埋め込み空間を共有し、マルチモーダルアプリケーションをサポート
テキスト生成画像 Transformers 英語
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能ビジョン埋め込みモデル、nomic-embed-text-v1と同じ埋め込み空間を共有し、マルチモーダルアプリケーションをサポート
テキスト生成画像 Transformers 英語
N
nomic-ai
2,032
22
Clip ViT B 32 Vision
MIT
CLIP ViT-B/32アーキテクチャに基づくONNX移植版で、画像分類と類似性検索タスクに適しています。
画像分類 Transformers
C
Qdrant
10.01k
7
M3D CLIP
Apache-2.0
M3D-CLIPは3D医用画像専用に設計されたCLIPモデルで、コントラスト損失により視覚と言語のアラインメントを実現します。
マルチモーダルアライメント Transformers
M
GoodBaiBai88
2,962
9
Blair Roberta Base
MIT
BLaIRはAmazonレビュー2023データセットで事前学習された言語モデルで、レコメンデーションと検索シーンに特化しており、強力な商品テキスト表現を生成し、関連商品を予測できます。
テキスト埋め込み Transformers 英語
B
hyp1231
415
3
Nllb Siglip Mrl Large
NLLB-SigLIP-MRLは、NLLBモデルのテキストエンコーダとSigLIPモデルの画像エンコーダを組み合わせた多言語ビジュアル言語モデルで、Flores-200の201言語をサポートします。
画像生成テキスト
N
visheratin
297
14
Nllb Siglip Mrl Base
NLLBテキストエンコーダーとSigLIP画像エンコーダーを組み合わせた多言語視覚言語モデルで、201言語と複数の埋め込み次元をサポート
画像生成テキスト
N
visheratin
352
9
Owlv2 Base Patch16
OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。
物体検出 Transformers
O
Xenova
17
0
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViTは視覚Transformerベースのオープン語彙物体検出モデルで、訓練データに存在しないカテゴリの物体を画像から検出可能です。
テキスト生成画像 Transformers
O
fxmarty
337
0
Internvl 14B 224px
MIT
InternVL-14B-224px は14Bパラメータの視覚言語基盤モデルで、様々な視覚言語タスクをサポートします。
テキスト生成画像 Transformers
I
OpenGVLab
521
37
Languagebind Video Huge V1.5 FT
MIT
LanguageBindは、言語を通じてマルチモーダルの意味的アラインメントを実現する事前学習モデルで、ビデオ、オーディオ、深度、サーモグラフィーなどの様々なモダリティと言語をバインドし、クロスモーダルの理解と検索を可能にします。
マルチモーダルアライメント Transformers
L
LanguageBind
2,711
4
Vilt Finetuned 200
Apache-2.0
ViLTアーキテクチャに基づく視覚言語モデルで、特定タスク向けにファインチューニング済み
テキスト生成画像 Transformers
V
Atul8827
35
0
Languagebind Audio FT
MIT
LanguageBindは、言語を異なるモーダル間の結びつきとして、意味論的アラインメントを実現する言語中心のマルチモーダル事前学習手法です。
マルチモーダルアライメント Transformers
L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBindは、言語ベースのセマンティックアラインメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダルモデルで、ICLR 2024に採択されました。
マルチモーダルアライメント Transformers
L
LanguageBind
10.96k
4
Nllb Clip Base Siglip
NLLB-CLIP-SigLIPは、NLLBモデルのテキストエンコーダとSigLIPモデルの画像エンコーダを組み合わせた多言語視覚言語モデルで、201言語をサポートしています。
テキスト生成画像
N
visheratin
478
1
Nllb Clip Large Siglip
NLLB-CLIP-SigLIPは、NLLBモデルのテキストエンコーダーとSigLIPモデルの画像エンコーダーを組み合わせた多言語視覚言語モデルで、201言語をサポートしています。
テキスト生成画像
N
visheratin
384
5
Xclip Base Patch16 Zero Shot
MIT
X-CLIPはCLIPのミニマルな拡張で、一般的なビデオと言語の理解のために、ビデオとテキストのマッチング関係を対照学習でトレーニングします。
テキスト生成ビデオ Transformers 英語
X
aurelio-ai
22
1
Metaclip L14 400m
MetaCLIPはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像とテキストの共有埋め込み空間を構築します。
テキスト生成画像 Transformers
M
facebook
325
3
Metaclip L14 Fullcc2.5b
MetaCLIPはCommonCrawl(CC)25億データポイントでトレーニングされた大規模視覚-言語モデルで、CLIPのデータ選別方法を解明
テキスト生成画像 Transformers
M
facebook
172
3
Metaclip B16 400m
MetaCLIPはCommonCrawlデータで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築するために使用されます
テキスト生成画像 Transformers
M
facebook
51
1
Metaclip B16 Fullcc2.5b
MetaCLIPはCommonCrawlデータに適用されるCLIPフレームワークの実装で、CLIP訓練データの選択方法を明らかにすることを目的としています。
テキスト生成画像 Transformers
M
facebook
90.78k
9
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase