# 視覚的質問応答

Gemma 3 12b It Qat Int4 GGUF
Gemma 3はGoogleがGemini技術を基に構築した軽量オープンモデルシリーズで、12Bバージョンは量子化対応トレーニング(QAT)技術を採用し、マルチモーダル入力と128Kコンテキストウィンドウをサポートします。
テキスト生成画像
G
unsloth
1,921
3
My Model
MIT
GITはトランスフォーマーベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。
画像生成テキスト PyTorch 複数言語対応
M
anoushhka
87
0
Vora 7B Instruct
VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。
画像生成テキスト Transformers
V
Hon-Wong
154
12
Sapnous VR 6B
Apache-2.0
Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。
画像生成テキスト Transformers 英語
S
Sapnous-AI
261
5
Gemma 3 27b It GPTQ 4b 128g
このモデルはgemma-3-27b-itをINT4量子化したバージョンで、各パラメータのビット数を減らすことでディスクとGPUメモリの要件を低減しています。
画像生成テキスト Transformers
G
ISTA-DASLab
32.15k
25
Gemma 3 4b It Qat Q4 0 Gguf
Gemma 3はGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルで、テキストと画像の入力に対応しテキストを出力します。128Kのコンテキストウィンドウと140以上の言語をサポート
画像生成テキスト
G
google
19.81k
120
Gemma 3 12b It GGUF
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、Geminiと同じ技術を基に構築されており、テキストと画像の入力を受け取りテキストを出力します
画像生成テキスト
G
ggml-org
8,110
23
Gemma 3 27b It
GemmaはGoogleが提供する軽量で最先端のオープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト Transformers
G
google
371.46k
1,274
Smolvlm2 500M Video Instruct
Apache-2.0
軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理してテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
17.89k
56
Smolvlm2 256M Video Instruct
Apache-2.0
SmolVLM2-256M-Videoは軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
22.16k
53
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
62.56k
164
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、推論効率を最適化しています。
テキスト生成画像 Transformers 英語
Q
RedHatAI
112
1
Llamav O1
Apache-2.0
LlamaV-o1は、複雑な視覚的推論タスクのために設計された先進的なマルチモーダル大規模言語モデルで、カリキュラム学習技術によって最適化され、多様なベンチマークテストで卓越した性能を発揮します。
テキスト生成画像 英語
L
omkarthawakar
1,406
93
Microsoft Git Base
MIT
GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。
画像生成テキスト 複数言語対応
M
seckmaster
18
0
Dermatech Qwen2 VL 2B
Qwen2-VL-2B-InstructをベースにLoRA技術でファインチューニングした皮膚科専門診断モデル。皮膚状態の画像を分析し、専門的な診断記述を提供可能。
画像生成テキスト Transformers
D
Rewatiramans
60
3
Florence 2 FT Lung Cancer Detection
Florence-2-base-ftをファインチューニングした肺がん検出モデルで、肺画像から肺がんの種類を識別
テキスト生成画像 Transformers 英語
F
nirusanan
20
1
Peacock
その他
ピーコックモデルはInstructBLIPアーキテクチャに基づくアラビア語マルチモーダル大規模言語モデルで、言語モデルにはAraLLaMAを採用しています。
画像生成テキスト PyTorch アラビア語
P
UBC-NLP
73
1
Horus OCR
Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。
画像生成テキスト Transformers
H
TeeA
21
0
Paligemma 3B Chat V0.2
google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています
テキスト生成画像 Transformers 複数言語対応
P
BUAADreamer
80
9
Paligemma Vqav2
このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。
テキスト生成画像 Transformers
P
merve
168
13
Llava Llama 3 8b
その他
LLaVA-v1.5フレームワークでトレーニングされた大規模マルチモーダルモデルで、80億パラメータのMeta-Llama-3-8B-Instructを言語バックボーンとして採用し、CLIPベースの視覚エンコーダーを備えています。
画像生成テキスト Transformers
L
Intel
387
14
Llava NeXT Video 7B DPO
LLaVA-Next-Videoはオープンソースのマルチモーダルダイアログモデルで、大規模言語モデルをマルチモーダル指示追従データで微調整しており、ビデオとテキストのマルチモーダルインタラクションをサポートします。
テキスト生成ビデオ Transformers
L
lmms-lab
8,049
27
Uform Gen2 Dpo
Apache-2.0
UForm-Gen2-dpoは、直接選好最適化(DPO)を用いてVLFeedbackおよびLLaVA-Human-Preference-10K選好データセットで画像キャプション生成と視覚的質問応答タスクに対してアライメント訓練された小型生成視覚言語モデルです。
画像生成テキスト Transformers 英語
U
unum-cloud
3,568
44
Moai 7B
MIT
MoAIは大規模な言語と視覚の混合モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト Transformers
M
BK-Lee
183
45
Llava Maid 7B DPO GGUF
LLaVAは大規模な言語と視覚のアシスタントモデルで、画像とテキストのマルチモーダルタスクを処理できます。
画像生成テキスト
L
megaaziib
99
4
Candle Llava V1.6 Mistral 7b
Apache-2.0
LLaVAは、画像に関連するテキストコンテンツを理解し生成できる視覚言語モデルです。
画像生成テキスト
C
DanielClough
73
0
Uform Gen2 Qwen 500m
Apache-2.0
UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
17.98k
76
Llava V1.6 34B Gguf
Apache-2.0
LLaVA 1.6 34Bはオープンソースのマルチモーダルチャットボットモデルで、マルチモーダル命令追従データで大規模言語モデルをファインチューニングして開発されました。画像テキストからテキスト生成タスクをサポートします。
画像生成テキスト
L
cjpais
1,965
40
Llava V1.6 Vicuna 13b
LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データを用いて大規模言語モデルの微調整を行っています。
画像生成テキスト Transformers
L
liuhaotian
7,080
56
Llava V1.6 Mistral 7b
Apache-2.0
LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データで大規模言語モデルをファインチューニングして訓練されています。
テキスト生成画像 Transformers
L
liuhaotian
27.45k
236
Minicpm V
MiniCPM-Vは、エンドデバイス展開に最適化された効率的で軽量なマルチモーダルモデルで、中英バイリンガルのインタラクションをサポートし、同規模のモデルを凌駕する性能を発揮します。
テキスト生成画像 Transformers
M
openbmb
19.74k
173
Infimm Zephyr
InfiMMはFlamingoアーキテクチャに触発されたマルチモーダル視覚言語モデルで、最新のLLMモデルを統合し、幅広い視覚言語処理タスクに適しています。
画像生成テキスト Transformers 英語
I
Infi-MM
23
10
Uform Gen Chat
Apache-2.0
UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
65
19
Uform Gen
Apache-2.0
UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
152
44
Ko Deplot
Apache-2.0
ko-deplotはGoogleのPix2Structアーキテクチャに基づく韓国語視覚的質問応答モデルで、Deplotモデルを微調整してトレーニングされ、韓国語と英語のチャート画像質問応答タスクをサポートします。
画像生成テキスト Transformers 複数言語対応
K
nuua
252
5
Ggml Llava V1.5 7b
Apache-2.0
LLaVAは視覚言語モデルで、画像に関連するテキストコンテンツを理解し生成できます。
画像生成テキスト
G
y10ab1
44
2
Liuhaotian Llava V1.5 13b GGUF
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaアーキテクチャをベースに、マルチモーダル命令追従データで微調整されています。
テキスト生成画像
L
PsiPi
1,225
36
Llava V1.5 7b Lora
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaモデルをGPT生成のマルチモーダル指示データで微調整してトレーニングされています。
テキスト生成画像 Transformers
L
liuhaotian
413
23
Llava V1.5 13b
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを微調整し視覚能力を統合、画像とテキストのインタラクションをサポートします。
テキスト生成画像 Transformers
L
liuhaotian
98.17k
499
Blip2 Opt 6.7b
MIT
BLIP-2は、画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。
画像生成テキスト Transformers 英語
B
merve
26
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase