# ゼロショット画像理解

Vit Base Patch16 Siglip 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
64
1
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
SigLIPベースのViT-B-16視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングを採用
画像分類 Transformers
V
timm
16
0
Vit Base Patch16 Siglip 256.webli
Apache-2.0
SigLIPベースのViT-B-16画像エンコーダーモデルで、オリジナルアテンションプーリングを採用し、画像特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
269
1
Minicpm V 2 6 GGUF
MiniCPM-V-2_6 は視覚Q&Aモデルで、中国語と英語をサポートし、視覚関連のQ&Aタスクに特化しています。
テキスト生成画像 Supports Multiple Languages
M
gaianet
250
0
Instructblip Flan T5 Xxl
MIT
InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます
画像生成テキスト Transformers English
I
Salesforce
937
21
Instructblip Vicuna 7b
Other
InstructBLIPはBLIP-2をベースにした視覚的指示チューニング版で、Vicuna-7Bを言語モデルとして採用し、視覚言語タスクに特化しています。
画像生成テキスト Transformers English
I
Salesforce
20.99k
91
Vit Gpt2 Image Chinese Captioning
MIT
このモデルはViTを使用して画像をエンコードし、GPT - 2を通じてデコードし、中国語画像記述生成をサポートします。
画像生成テキスト Transformers Chinese
V
yuanzhoulvpi
22
6
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase