# 画像テキストマッチング

Cultureclip
CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています
テキスト生成画像 Transformers
C
lukahh
20
0
Sail Clip Hendrix 10epochs
openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て
テキスト生成画像 Transformers
S
cringgaard
49
0
Mexma Siglip2
MIT
MEXMA-SigLIP2は、MEXMA多言語テキストエンコーダーとSigLIP2画像エンコーダーを組み合わせた高性能CLIPモデルで、80言語をサポートしています。
テキスト生成画像 複数言語対応
M
visheratin
224
4
Clip Vit Tiny Random Patch14 336
これはデバッグ用の小型CLIPモデルで、ViTアーキテクチャに基づき、重みをランダムに初期化しています。
テキスト生成画像 Transformers
C
yujiepan
14.47k
0
Longclip GmP ViT L 14
BeichenZhang/LongCLIP-LをベースにファインチューンしたCLIPモデルで、長文入力(248トークン)をサポートし、幾何学的パラメータ化(GmP)技術で性能向上を実現
テキスト生成画像 Transformers
L
zer0int
4,859
61
Video Llava
Vision Transformerアーキテクチャに基づく大規模視覚言語モデルで、画像とテキストのクロスモーダル理解をサポート
テキスト生成画像
V
AnasMohamed
194
0
Vilt Finetuned 200
Apache-2.0
ViLTアーキテクチャに基づく視覚言語モデルで、特定タスク向けにファインチューニング済み
テキスト生成画像 Transformers
V
Atul8827
35
0
Clip Vit Large Patch14
OpenAIがオープンソース化したCLIPモデルで、Vision Transformer (ViT) アーキテクチャに基づき、画像とテキストの共同理解をサポートします。
テキスト生成画像 Transformers
C
Xenova
17.41k
0
CLIP Giga Config Fixed
MIT
LAION-2BデータセットでトレーニングされたCLIP大規模モデル、ViT-bigG-14アーキテクチャを採用、画像とテキストのクロスモーダル理解をサポート
テキスト生成画像 Transformers
C
Geonmo
109
1
Japanese Cloob Vit B 16
Apache-2.0
rinna株式会社によって訓練された日本語CLOOB(Contrastive Leave-One-Out Boost)モデルで、画像とテキストのクロスモーダル理解に使用されます
テキスト生成画像 Transformers 日本語
J
rinna
229.51k
12
Clip Vit Large Patch14 336
Vision Transformerアーキテクチャに基づく大規模な視覚言語事前学習モデルで、画像とテキストのクロスモーダル理解をサポートします。
テキスト生成画像 Transformers
C
openai
5.9M
241
Clip Vit B 32 Japanese V1
これは日本語に適したCLIPテキスト/画像エンコーダーモデルで、蒸留技術を用いて英語版CLIPモデルから日本語版に変換されました。
テキスト生成画像 Transformers 日本語
C
sonoisa
690
21
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase