Fg Clip Base
Apache-2.0
FG-CLIPは細粒度視覚とテキストのアラインメントモデルで、2段階のトレーニングによりグローバルおよび領域レベルの画像-テキストアラインメントを実現します。
テキスト生成画像
Transformers 英語

F
qihoo360
692
2
Jina Embeddings V4
Jina Embeddings v4は、マルチモーダルおよび多言語検索用に設計された汎用埋め込みモデルで、グラフ、表、イラストを含むビジュアルに富んだ複雑なドキュメントの検索に特に適しています。
マルチモーダル融合
Transformers その他

J
jinaai
669
36
CLIP ViT H 14 Laion2b S32b B79k
MIT
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
テキスト生成画像
C
ModelsLab
132
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語データセットで訓練された視覚-言語モデル。ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
recallapp
17
0
CLIP ViT L 14 Spectrum Icons 20k
MIT
CLIP ViT-L/14をファインチューニングした視覚言語モデルで、抽象的な画像-テキスト検索タスクに最適化されています
テキスト生成画像
TensorBoard 英語

C
JianLiao
1,576
1
Prolip ViT B 16 DC 1B 12 8B
MIT
DataComp 1Bデータセットで事前学習された確率的言語-画像事前学習(ProLIP)ViT-B/16モデル
テキスト生成画像
P
SanghyukChun
460
0
Jina Clip V2
Jina CLIP v2 は、テキストと画像に対応した汎用的な多言語マルチモーダル埋め込みモデルで、89言語をサポートし、より高い画像解像度とネスト表現能力を備えています。
テキスト生成画像
Transformers 複数言語対応

J
jinaai
47.56k
219
Colpali V1.1
MIT
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚検索モデルで、視覚特徴から効率的に文書をインデックス化します。
テキスト生成画像
Safetensors 英語
C
vidore
196
2
Patentclip RN101
MIT
OpenCLIPライブラリを基にしたゼロショット画像分類モデルで、特許画像分析に適しています
画像分類
P
hhshomee
15
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2BデータセットでトレーニングされたCLIP ViT-B/32モデル。ゼロショット画像分類とクロスモーダル検索タスクをサポート
テキスト生成画像
C
rroset
48
0
CLIP GmP ViT L 14
MIT
OpenAI CLIP ViT-L/14をベースにしたファインチューニングモデルで、幾何学的パラメータ化(GmP)により性能向上を実現、特にテキストエンコーディング能力を最適化
テキスト生成画像
Transformers

C
zer0int
6,275
433
CLIP ViT B 32 DataComp.XL S13b B90k
MIT
これはDataComp-1BデータセットでトレーニングされたCLIP ViT-B/32モデルで、ゼロショット画像分類や画像テキスト検索などのタスクに使用されます。
テキスト生成画像
C
laion
12.12k
4
CLIP ViT B 32 256x256 DataComp S34b B86k
MIT
これはDataComp-1Bデータセットで訓練されたCLIP ViT-B/32モデルで、OpenCLIPフレームワークを使用して256x256解像度で訓練され、主にゼロショット画像分類と画像テキスト検索タスクに使用されます。
テキスト生成画像
C
laion
4,332
8
Pmc Vit L 14 Hf
CLIP-ViT-L/14をPMC-OAデータセットでファインチューニングした視覚言語モデル
テキスト生成画像
Transformers

P
ryanyip7777
260
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
これはDataComp-1BデータセットでトレーニングされたCLIP ViT-L/14モデルで、ゼロショット画像分類と画像テキスト検索タスクをサポートします。
画像生成テキスト
C
flavour
39.22k
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
これはDataComp-1BデータセットでOpenCLIPを使用して訓練されたCLIP ViT-B/16モデルで、主にゼロショット画像分類と画像テキスト検索に使用されます。
テキスト生成画像
C
laion
4,461
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
このモデルはDataComp-1Bデータセットで訓練されたCLIP ViT-L/14モデルで、主にゼロショット画像分類と画像テキスト検索タスクに使用されます。
テキスト生成画像
C
laion
586.75k
113
Arabic Clip Vit Base Patch32
アラビア語CLIPは、画像から概念を学習しアラビア語テキスト記述と関連付けることができる、対照的言語-画像事前学習(CLIP)モデルのアラビア語適応版です。
テキスト生成画像 アラビア語
A
LinaAlhuri
33
2
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデル。OpenCLIPフレームワークを使用し、非ViT画像タワーCLIPモデルとして初めて>79%のImageNet top-1ゼロショット精度を達成
テキスト生成画像
C
laion
9,412
22
CLIP Convnext Large D 320.laion2B S29b B131k Ft
MIT
ConvNeXt-Largeアーキテクチャに基づくCLIPモデルで、LAION-2Bデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポートします。
テキスト生成画像
TensorBoard

C
laion
3,810
3
CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup
MIT
ConvNeXt-Largeアーキテクチャに基づくCLIPモデルで、LAION-2Bデータセットで訓練され、ゼロショット画像分類と画像テキスト検索タスクをサポート
テキスト生成画像
TensorBoard

C
laion
83.56k
19
CLIP Convnext Large D.laion2b S26b B102k Augreg
MIT
LAION-2Bデータセットでトレーニングされた大規模ConvNeXt-Large CLIPモデル、ゼロショット画像分類と画像テキスト検索タスクをサポート
テキスト生成画像
TensorBoard

C
laion
80.74k
5
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
OpenCLIPフレームワークを使用してLAION-2Bデータセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
laion
565.80k
261
CLIP Convnext Base W Laion2b S13b B82k Augreg
MIT
ConvNeXt-Baseアーキテクチャを基にしたCLIPモデルで、OpenCLIPを使用してLAION-5Bのサブセットでトレーニングされ、ゼロショット画像分類タスクに焦点を当てています
テキスト生成画像
TensorBoard

C
laion
40.86k
7
CLIP Convnext Base W 320 Laion Aesthetic S13b B82k
MIT
ConvNeXt-Baseアーキテクチャに基づくCLIPモデルで、LAION-5Bのサブセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクに適しています。
テキスト生成画像
TensorBoard

C
laion
12.67k
3
CLIP Convnext Base W Laion Aesthetic S13b B82k
MIT
LAION-AestheticデータセットでトレーニングされたConvNeXt-BaseアーキテクチャのCLIPモデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポート
テキスト生成画像
TensorBoard

C
laion
703
5
CLIP Convnext Base W Laion2b S13b B82k
MIT
ConvNeXt-Baseアーキテクチャに基づくCLIPモデルで、LAION-5Bサブセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポート
テキスト生成画像
C
laion
4,522
5
CLIP ViT B 16 Laion2b S34b B88k
MIT
OpenCLIPフレームワークでトレーニングされたマルチモーダル視覚言語モデルで、LAION-2B英語データセットでトレーニングされ、ゼロショット画像分類タスクをサポートします
テキスト生成画像
C
laion
251.02k
33
Taiyi CLIP RoBERTa 102M ViT L Chinese
Apache-2.0
初のオープンソース中国語CLIPモデル、1億2300万のテキスト画像ペアで事前学習、テキストエンコーダはRoBERTa-baseアーキテクチャを採用。
テキスト生成画像
Transformers 中国語

T
IDEA-CCNL
668
19
CLIP ViT H 14 Laion2b S32b B79k
MIT
OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします
テキスト生成画像
C
laion
1.8M
368
CLIP ViT L 14 Laion2b S32b B82k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚言語モデル。ゼロショット画像分類と画像テキスト検索をサポート
テキスト生成画像
TensorBoard

C
laion
79.01k
48
CLIP ViT B 32 Laion2b S34b B79k
MIT
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
laion
1.1M
112
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98