Clip Vit Large Patch14 336
Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。
テキスト生成画像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。
テキスト生成画像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルモデルであり、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、視覚質問応答タスクに優れており、言語-画像共同トレーニングによりマルチモーダル理解と生成能力を実現
テキスト生成画像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします
テキスト生成画像
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
laion
1.1M
112
Pickscore V1
PickScore v1はテキストから生成された画像に対するスコアリング関数で、人間の選好予測、モデル性能評価、画像ランキングなどのタスクに使用できます。
テキスト生成画像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを位置特定できます。
テキスト生成画像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2はMetaがリリースした多言語マルチモーダル大規模言語モデルで、画像テキストからテキストへの変換タスクをサポートし、強力なクロスモーダル理解能力を備えています。
テキスト生成画像
Transformers 複数言語対応

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
テキスト生成画像
Transformers

O
google
764.95k
129
Vit Base Patch16 Clip 224.openai
Apache-2.0
CLIPはOpenAIが開発した視覚-言語モデルで、コントラスティブラーニングにより画像とテキストのエンコーダを訓練し、ゼロショット画像分類をサポートします。
テキスト生成画像
Transformers

V
timm
618.17k
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
このモデルはDataComp-1Bデータセットで訓練されたCLIP ViT-L/14モデルで、主にゼロショット画像分類と画像テキスト検索タスクに使用されます。
テキスト生成画像
C
laion
586.75k
113
Florence 2 Large
MIT
Florence-2はマイクロソフトが開発した先進的なビジョンファウンデーションモデルで、プロンプトベースのアプローチにより幅広い視覚と言語タスクを処理します。
テキスト生成画像
Transformers

F
microsoft
579.23k
1,530
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
OpenCLIPフレームワークを使用してLAION-2Bデータセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
laion
565.80k
261
Marqo Fashionsiglip
Apache-2.0
Marqo-FashionSigLIPはファッション製品検索に最適化された多モーダル埋め込みモデルで、FashionCLIPと比較してMRRとリコール率で57%向上しました。
テキスト生成画像
Transformers 英語

M
Marqo
493.25k
44
Stable Diffusion 3.5 Medium
その他
改良型マルチモーダル拡散トランスフォーマー(MMDiT-X)を基にしたテキストから画像生成モデルで、画像品質、テキストレイアウト、複雑なプロンプト理解、リソース効率の全てにおいて大幅な改善が見られる
テキスト生成画像 英語
S
stabilityai
426.00k
691
Cogview4 6B
Apache-2.0
CogView4-6BはGLM-4-9Bベースモデルを基にしたテキスト生成画像モデルで、中国語と英語をサポートし、高品質な画像を生成できます。
テキスト生成画像 複数言語対応
C
THUDM
333.85k
216
Florence 2 Base
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチを用いて幅広い視覚および視覚言語タスクを処理します。
テキスト生成画像
Transformers

F
microsoft
316.74k
264
Sdxl Turbo
その他
SDXL-Turboは高速な生成型テキストから画像へのモデルで、テキストプロンプトからリアルな画像を単一のネットワーク評価で生成できます。
テキスト生成画像
S
stabilityai
304.13k
2,385
Florence 2 Large Ft
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚と言語タスクを処理します。
テキスト生成画像
Transformers

F
microsoft
269.44k
349
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを特定できます。
テキスト生成画像
Transformers

O
google
262.77k
25
CLIP ViT B 16 Laion2b S34b B88k
MIT
OpenCLIPフレームワークでトレーニングされたマルチモーダル視覚言語モデルで、LAION-2B英語データセットでトレーニングされ、ゼロショット画像分類タスクをサポートします
テキスト生成画像
C
laion
251.02k
33
Siglip Base Patch16 512
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚-言語モデルで、改良されたシグモイド損失関数を採用し、画像分類と画像テキスト検索タスクで優れた性能を発揮します。
テキスト生成画像
Transformers

S
google
237.79k
24
Japanese Cloob Vit B 16
Apache-2.0
rinna株式会社によって訓練された日本語CLOOB(Contrastive Leave-One-Out Boost)モデルで、画像とテキストのクロスモーダル理解に使用されます
テキスト生成画像
Transformers 日本語

J
rinna
229.51k
12
Plip
CLIPはマルチモーダルな視覚言語モデルで、画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類とクロスモーダル検索を実現します。
テキスト生成画像
Transformers

P
vinid
177.58k
45
Clip Vit Base Patch32
OpenAIが開発したCLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストの共同理解をサポート
テキスト生成画像
Transformers

C
Xenova
177.13k
8
Siglip Base Patch16 256 Multilingual
Apache-2.0
SigLIPはWebLiデータセットで事前学習された改良版CLIPモデルで、Sigmoid損失関数を使用して画像-テキストマッチングタスクを最適化
テキスト生成画像
Transformers

S
google
175.86k
44
Gemma 3 1b Pt
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルと同じ研究技術に基づいて構築されています。
テキスト生成画像
Transformers

G
google
171.13k
108
Hyperclovax SEED Vision Instruct 3B
その他
HyperCLOVAX-SEED-Vision-Instruct-3BはNAVERが開発した軽量マルチモーダルモデルで、画像・テキスト理解とテキスト生成能力を備え、特に韓国語処理能力が最適化されています。
テキスト生成画像
Transformers

H
naver-hyperclovax
160.75k
170
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像
Transformers

S
google
159.81k
21
Vit SO400M 14 SigLIP 384
Apache-2.0
WebLIデータセットで学習されたSigLIP(言語-画像事前学習のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像
V
timm
158.84k
79
Stable Diffusion 3.5 Large
その他
マルチモーダル拡散トランスフォーマーアーキテクチャに基づくテキストから画像生成モデルで、画像品質、レイアウト効果、複雑なプロンプト理解において顕著な向上を実現
テキスト生成画像 英語
S
stabilityai
143.20k
2,715
Paligemma 3b Mix 224
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
テキスト生成画像
Transformers

P
google
143.03k
75
Janus Pro 7B
MIT
Janus-Proは革新的な自己回帰型フレームワークで、マルチモーダル理解と生成機能を統合しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャで処理することで、視覚エンコーダが理解と生成の役割間で生じる衝突を解決しました。
テキスト生成画像
Transformers

J
deepseek-ai
139.64k
3,355
Metaclip B32 400m
MetaCLIP基本モデルはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。
テキスト生成画像
Transformers

M
facebook
135.37k
41
Stable Diffusion 3 Medium Diffusers
その他
Stability AIが開発したマルチモーダル拡散トランスフォーマーのテキストから画像生成モデルで、画像品質、テキストレイアウト、複雑なプロンプト理解において顕著な向上を実現
テキスト生成画像 英語
S
stabilityai
118.68k
391
Colqwen2 V1.0
Apache-2.0
ColQwen2はQwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、文書の視覚的特徴を効率的にインデックス化します。
テキスト生成画像 英語
C
vidore
106.85k
86
Vit SO400M 16 SigLIP2 384
Apache-2.0
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
V
timm
106.30k
2
Mobileclip S2 OpenCLIP
MobileCLIP-S2は、マルチモーダル強化トレーニングにより高速なゼロショット画像分類を実現する効率的な画像テキストモデルです。
テキスト生成画像
M
apple
99.74k
6
Llava V1.5 13b
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを微調整し視覚能力を統合、画像とテキストのインタラクションをサポートします。
テキスト生成画像
Transformers

L
liuhaotian
98.17k
499
Colpali V1.3
MIT
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚検索モデルで、文書の視覚的特徴を効率的にインデックス化します
テキスト生成画像 英語
C
vidore
96.60k
40
Metaclip B16 Fullcc2.5b
MetaCLIPはCommonCrawlデータに適用されるCLIPフレームワークの実装で、CLIP訓練データの選択方法を明らかにすることを目的としています。
テキスト生成画像
Transformers

M
facebook
90.78k
9
- 1
- 2
- 3
- 4
- 5
- 6
- 10