# オープンドメイン認識

Internvideo2 Stage2 6B
MIT
InternVideo2は6Bパラメータ規模のマルチモーダル動画理解モデルで、動画コンテンツの分析と理解タスクに特化しています。
ビデオ生成テキスト
I
OpenGVLab
542
0
Resnet101 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet101画像エンコーダー、グローバル平均プーリング(GAP)による画像特徴抽出
画像分類 Transformers
R
timm
104
0
Resnet50 Clip Gap.openai
Apache-2.0
CLIPモデルの視覚エンコーダ部分に基づくResNet50バリアントで、グローバル平均プーリング(GAP)により画像特徴を抽出
画像分類 Transformers
R
timm
250
1
Eva Giant Patch14 Clip 224.laion400m
MIT
EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
124
0
Eva02 Enormous Patch14 Clip 224.laion2b
MIT
EVA-CLIPはCLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
38
0
Eva02 Base Patch16 Clip 224.merged2b
MIT
EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づいて構築された視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
3,029
0
Vit Large Patch14 Clip 224.laion2b
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出に特化
画像分類 Transformers
V
timm
502
0
Vit Huge Patch14 Clip 224.laion2b
Apache-2.0
CLIPフレームワークに基づくViT-Huge視覚エンコーダ、laion2Bデータセットでトレーニング済み、画像特徴抽出をサポート
画像分類 Transformers
V
timm
1,969
0
Vit Base Patch32 Clip 224.laion2b
Apache-2.0
CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出用に設計、laion2Bデータセットで学習
画像分類 Transformers
V
timm
83
0
Vit Huge Patch14 Clip 224.metaclip 2pt5b
MetaCLIP-2.5Bデータセットで訓練されたデュアルユースの視覚言語モデル、ゼロショット画像分類タスクをサポート
画像分類
V
timm
3,173
0
Vit Large Patch14 Clip 224.metaclip 2pt5b
MetaCLIP-2.5Bデータセットでトレーニングされたデュアルフレームワーク互換の視覚モデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
2,648
0
Vit Base Patch16 Plus Clip 240.laion400m E31
MIT
LAION-400Mデータセットで訓練された視覚-言語デュアルユースモデル、ゼロショット画像分類タスクをサポート
画像分類
V
timm
37.23k
0
Vit Base Patch32 Clip 224.laion2b E16
MIT
LAION-2Bデータセットで訓練されたVision Transformerモデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
7,683
0
Resnet50x16 Clip.openai
MIT
CLIPフレームワークを基にしたResNet50x16視覚モデル、ゼロショット画像分類タスクをサポート
画像分類
R
timm
702
0
Resnet50x4 Clip.openai
MIT
CLIPアーキテクチャに基づくResNet50x4視覚言語モデルで、ゼロショット画像分類タスクをサポート
画像生成テキスト
R
timm
2,303
0
Resnet50 Clip.openai
MIT
ResNet50アーキテクチャとCLIP技術に基づくゼロショット画像分類モデル
画像分類
R
timm
11.91k
0
Vit Xsmall Patch16 Clip 224.tinyclip Yfcc15m
MIT
CLIPアーキテクチャに基づく小型の視覚-言語モデルで、効率的なゼロショット画像分類のために設計されています
画像分類
V
timm
444
0
Vit Betwixt Patch32 Clip 224.tinyclip Laion400m
MIT
ViTアーキテクチャに基づく小型CLIPモデルで、ゼロショット画像分類タスクに適しており、LAION-400Mデータセットでトレーニングされています。
画像分類
V
timm
113
1
Vit Medium Patch32 Clip 224.tinyclip Laion400m
MIT
OpenCLIPライブラリに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
画像分類
V
timm
110
0
Vit B 16 Aion400m E32 1finetuned 1
MIT
OpenCLIPフレームワークに基づくVision Transformerモデルで、ゼロショット画像分類タスク向けにファインチューニングされています
画像分類
V
Albe-njupt
18
1
CLIP ViT B 32 CommonPool.S S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
79
0
CLIP ViT B 32 Laion2b E16
MIT
OpenCLIPで実装された視覚-言語事前学習モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
justram
89
0
CLIP ViT L 14 CommonPool.XL.laion S13b B90k
MIT
CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート、laionデータセットでトレーニング済み
テキスト生成画像
C
laion
176
1
CLIP ViT L 14 CommonPool.XL S13b B90k
MIT
CLIPアーキテクチャに基づく視覚-言語事前学習モデル、ゼロショット画像分類とクロスモーダル検索タスクをサポート
テキスト生成画像
C
laion
4,255
2
CLIP ViT B 16 DataComp.L S1b B8k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットでトレーニングされ、効率的な画像-テキストマッチングタスクをサポートします。
テキスト生成画像
C
laion
1,166
1
CLIP ViT B 16 CommonPool.L.clip S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
138
0
CLIP ViT B 16 CommonPool.L.laion S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、laion-s1B-b8Kデータセットでトレーニングされています
テキスト生成画像
C
laion
106
0
CLIP ViT B 16 CommonPool.L.image S1b B8k
MIT
CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
70
0
CLIP ViT B 16 CommonPool.L.text S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
58
0
CLIP ViT B 16 CommonPool.L S1b B8k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
517
0
CLIP ViT B 32 DataComp.M S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、DataComp.Mデータセットで学習済み
テキスト生成画像
C
laion
212
0
CLIP ViT B 32 CommonPool.M.laion S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
65
0
CLIP ViT B 32 CommonPool.M.image S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
73
0
CLIP ViT B 32 CommonPool.M.text S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
68
0
CLIP ViT B 32 CommonPool.M.basic S128m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
C
laion
67
0
CLIP ViT B 32 CommonPool.M S128m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデル、汎用視覚-言語タスクをサポート
テキスト生成画像
C
laion
79
0
CLIP ViT B 32 DataComp.S S13m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットで訓練されており、様々な視覚タスクをサポートします。
テキスト生成画像
C
laion
92
0
CLIP ViT B 32 CommonPool.S.clip S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
68
0
CLIP ViT B 32 CommonPool.S.laion S13m B4k
MIT
CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
58
0
CLIP ViT B 32 CommonPool.S.image S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート
テキスト生成画像
C
laion
60
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase