# オープン語彙認識

OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
SigLIPアーキテクチャに基づく軽量な視覚言語モデルで、より大きなSigLIP-400mモデルから蒸留技術を用いて知識を抽出し、ゼロショット画像分類タスクに適しています。
画像分類
O
PumeTu
30
0
Llmdet Swin Large Hf
Apache-2.0
LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、CVPR2025ハイライト論文の成果です
物体検出
L
fushh7
3,428
1
Llmdet Swin Base Hf
Apache-2.0
LLMDetは大規模言語モデル監視に基づくオープン語彙物体検出器で、ゼロショット物体検出を実現できます。
物体検出 Safetensors
L
fushh7
605
0
Llmdet Swin Tiny Hf
Apache-2.0
LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、ゼロショット物体検出を実現できます。
物体検出
L
fushh7
2,451
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
テキスト生成画像 Safetensors 英語
V
omlab
892
11
Yoloe V8l Seg
YOLOEはリアルタイム視覚万能モデルで、物体検出と視覚理解能力を組み合わせ、様々な視覚タスクに適用可能です。
物体検出
Y
jameslahm
4,135
1
Genmedclip
MIT
GenMedClipはopen_clipライブラリを基にしたゼロショット画像分類モデルで、医療画像分析に特化しています。
画像分類
G
wisdomik
40
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIPはCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。
画像分類
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIPはCLIPアーキテクチャに基づく大規模視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。
テキスト生成画像
E
timm
54
0
Vit Huge Patch14 Clip 224.metaclip Altogether
ViT-Hugeアーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
171
1
Vit Base Patch16 Clip 224.metaclip 400m
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
画像分類
V
timm
1,206
1
Omdet Turbo Swin Tiny Hf
Apache-2.0
OmDet-TurboはリアルタイムTransformerベースの効率的な融合ヘッドを備えたオープン語彙検出モデルで、ゼロショット物体検出タスクに適しています。
物体検出 Safetensors
O
omlab
36.29k
33
Medcsp Clip
MIT
CLIPアーキテクチャに基づく医療分野向けゼロショット画像分類モデル
テキスト生成画像
M
xcwangpsu
91
1
Resnet50x64 Clip.openai
MIT
OpenCLIPライブラリのResNet50x64アーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポートします。
画像分類
R
timm
622
0
Vitamin XL 384px
MIT
ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。
画像生成テキスト Transformers
V
jienengchen
104
20
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出できます。
テキスト生成画像 Transformers
O
Thomasboosinger
1
0
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を特定できます。
物体検出 Transformers
O
upfeatmediainc
15
0
Owlv2 Base Patch16
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出・位置特定できます。
テキスト生成画像 Transformers
O
vvmnnnkv
26
0
Owlv2 Large Patch14 Finetuned
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。
テキスト生成画像 Transformers
O
google
1,434
4
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを特定できます。
テキスト生成画像 Transformers
O
google
262.77k
25
Owlv2 Base Patch16 Finetuned
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
物体検出 Transformers
O
google
2,698
3
CLIP ViT L 14 CommonPool.XL.clip S13b B90k
MIT
CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
テキスト生成画像
C
laion
534
1
CLIP ViT B 32 CommonPool.M.clip S128m B4k
MIT
CLIPアーキテクチャに基づくゼロショット画像分類モデルで、汎用プーリング機能をサポート
画像生成テキスト
C
laion
164
0
CLIP ViT B 32 CommonPool.S.basic S13m B4k
MIT
CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート
画像生成テキスト
C
laion
53
0
Eva02 Large Patch14 Clip 224.merged2b S4b B131k
MIT
EVA02はCLIPアーキテクチャに基づく大規模な視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
画像分類
E
timm
5,696
6
Owlvit Large Patch14
Apache-2.0
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
テキスト生成画像 Transformers
O
google
25.01k
25
Owlvit Base Patch16
Apache-2.0
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。
テキスト生成画像 Transformers
O
google
4,588
12
Owlvit Base Patch32
Apache-2.0
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
テキスト生成画像 Transformers
O
google
764.95k
129
Clip Vit Base Patch32
CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。
画像生成テキスト
C
openai
14.0M
666
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase