# 画像理解

Gemma 3 27b It Qat 8bit
その他
Gemma 3 27B IT QAT 8bit はGoogleのGemma 3 27Bモデルを変換したMLX形式のモデルで、画像からテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
G
mlx-community
422
2
Qwen2.5 VL 7B Instruct GPTQ Int4
Apache-2.0
Qwen2.5-VL-7B-Instruct-GPTQ-Int4はQwen2.5-VL-7B-Instructモデルを非公式にGPTQ-Int4量子化したバージョンで、画像からテキストへのマルチモーダルタスクをサポートします。
画像生成テキスト Transformers 複数言語対応
Q
hfl
872
3
Qwen2 VL 2B GGUF
Apache-2.0
Qwen2-VL-2Bはビジュアル言語モデルで、GGUF形式の量子化バージョンを提供し、さまざまなシーンに適用できます。
テキスト生成画像 Transformers 英語
Q
tensorblock
314
0
Internlm Xcomposer2d5 Ol 7b
その他
InternLM-XComposer2.5-OLは、長時間ストリーミング映像と音声のインタラクションをサポートする全方位マルチモーダルシステムです。
テキスト生成画像 Safetensors
I
internlm
79
49
Llava Critic 7b Hf
これはtransformersと互換性のある視覚言語モデルで、画像理解とテキスト生成能力を備えています
テキスト生成画像 Transformers
L
FuryMartin
21
1
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8bはIlyaGusev/saiga_llama3_8bモデルを基に開発された視覚-言語モデル(VLM)で、主にロシア語タスクに適応していますが、英語処理能力も保持しています。
画像生成テキスト Transformers 複数言語対応
L
deepvk
205
16
Paligemma Longprompt V1 Safetensors
Gpl-3.0
実験的な視覚モデルで、キーワードタグと長文記述を融合して画像プロンプトを生成
画像生成テキスト Transformers
P
mnemic
38
1
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。
画像生成テキスト Transformers 複数言語対応
L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています
テキスト生成画像 Transformers 複数言語対応
P
BUAADreamer
80
9
Paligemma Vqav2
このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。
テキスト生成画像 Transformers
P
merve
168
13
Llava Llama 3 8b V1 1 GGUF
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート
画像生成テキスト
L
MoMonir
138
5
Llava Phi 3 Mini Hf
Phi-3-mini-4k-instructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート
画像生成テキスト Transformers
L
xtuner
2,322
49
Blip Finetuned Fashion
Bsd-3-clause
このモデルはSalesforce/blip-vqa-baseをファインチューニングした視覚質問応答モデルで、ファッション分野に特化しています
テキスト生成画像 Transformers
B
Ornelas
2,281
0
Mixtral AI Vision 128k 7b
MIT
視覚と言語能力を結合したマルチモーダルモデルで、マージ手法により画像とテキストのインタラクション機能を実現します。
画像生成テキスト Transformers 英語
M
LeroyDyer
384
4
Eris PrimeV3 Vision 7B
その他
Eris Prime V2は7Bパラメータ規模のマルチモーダル言語モデルで、視覚機能をサポートし、Koboldcppとの併用が必要です。
テキスト生成画像
E
ChaoticNeutrals
118
8
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
ViTアーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスク用
画像分類
V
timm
144
0
Candle Llava V1.6 Mistral 7b
Apache-2.0
LLaVAは、画像に関連するテキストコンテンツを理解し生成できる視覚言語モデルです。
画像生成テキスト
C
DanielClough
73
0
Tecoa4 Clip
MIT
TeCoAはOpenAI CLIPで初期化された視覚言語モデルで、教師あり対抗微調整によりロバスト性を向上
テキスト生成画像
T
chs20
51
1
Llava V1.6 Vicuna 13b Gguf
Apache-2.0
LLaVAはTransformerアーキテクチャに基づくオープンソースのマルチモーダルチャットボットで、量子化技術により様々なサイズと品質のバランスを取ったモデルバージョンを提供します。
画像生成テキスト
L
cjpais
630
9
Ggml Llava V1.5 7b
Apache-2.0
LLaVAは視覚言語モデルで、画像に関連するテキストコンテンツを理解し生成できます。
画像生成テキスト
G
y10ab1
44
2
Pix2struct Vizwizvqa Base
Apache-2.0
これはApache-2.0ライセンスに基づく視覚的質問応答モデルで、英語をサポートし、視覚に関連する質問応答タスクに特化しています。
テキスト生成画像 Transformers 英語
P
nanom
16
0
Llava V1.5 13B GPTQ
Llava v1.5 13BはHaotian Liuによって開発されたマルチモーダルモデルで、視覚と言語の能力を組み合わせ、画像とテキストに基づくコンテンツを理解し生成できます。
テキスト生成画像 Transformers
L
TheBloke
131
37
Finetuned Git Large Chest Xrays
MIT
MITライセンスに基づく視覚言語モデルで、画像からテキスト記述を生成することに特化しています。
画像生成 Transformers 複数言語対応
F
daniyal214
15
0
Mplug Owl Llama 7b
Apache-2.0
mPLUG-OwlはLLaMA-7Bアーキテクチャに基づくマルチモーダル大規模言語モデルで、画像理解とテキスト生成タスクをサポートします。
画像生成テキスト Transformers 英語
M
MAGAer13
327
16
Taiyi BLIP 750M Chinese
Apache-2.0
画像の内容をテキスト記述に変換することに特化したモデルで、中国語処理をサポートしています。
文字認識 Transformers 中国語
T
IDEA-CCNL
180
14
Beitbase
未知のデータセットでファインチューニングされたBEiTベースモデル、具体的な用途と性能情報は現在利用不可
大規模言語モデル Transformers
B
ivensamdh
15
0
Upernet Convnext Large
MIT
UperNetは、ピクセルレベルのセマンティックラベル予測のためのConvNeXt大型バックボーンネットワークを組み合わせたセマンティックセグメンテーションフレームワークです。
画像セグメンテーション Transformers 英語
U
openmmlab
23.09k
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase