# ゼロショット画像理解
Vit Base Patch16 Siglip 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類
Transformers

V
timm
64
1
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
SigLIPベースのViT-B-16視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングを採用
画像分類
Transformers

V
timm
16
0
Vit Base Patch16 Siglip 256.webli
Apache-2.0
SigLIPベースのViT-B-16画像エンコーダーモデルで、オリジナルアテンションプーリングを採用し、画像特徴抽出タスクに適しています。
画像分類
Transformers

V
timm
269
1
Minicpm V 2 6 GGUF
MiniCPM-V-2_6 は視覚Q&Aモデルで、中国語と英語をサポートし、視覚関連のQ&Aタスクに特化しています。
テキスト生成画像 Supports Multiple Languages
M
gaianet
250
0
Instructblip Flan T5 Xxl
MIT
InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます
画像生成テキスト
Transformers English

I
Salesforce
937
21
Instructblip Vicuna 7b
Other
InstructBLIPはBLIP-2をベースにした視覚的指示チューニング版で、Vicuna-7Bを言語モデルとして採用し、視覚言語タスクに特化しています。
画像生成テキスト
Transformers English

I
Salesforce
20.99k
91
Vit Gpt2 Image Chinese Captioning
MIT
このモデルはViTを使用して画像をエンコードし、GPT - 2を通じてデコードし、中国語画像記述生成をサポートします。
画像生成テキスト
Transformers Chinese

V
yuanzhoulvpi
22
6
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98