Model Selection

Visual question answering

# Visual question answering

Gemma 3 27b It Quantized.w4a16

This is a quantized version of google/gemma-3-27b-it, supporting visual-text input and text output. Optimized through weight quantization and activation quantization, it enables efficient inference with vLLM.

Visionreasoner 7B

VisionReasoner-7B is an image-text-to-text model that adopts a decoupled architecture and consists of a reasoning model and a segmentation model. It can interpret user intentions and generate pixel-level masks.

Transformers English

Gemma 3 27b It GPTQ 4b 128g

This model is an INT4 quantized version of gemma-3-27b-it, reducing disk and GPU memory requirements by decreasing the number of bits per parameter.

Gemma 3 4b It Qat Q4 0 Gguf

Gemma 3 is Google's lightweight cutting-edge open-source multimodal model supporting text and image inputs with text output, featuring 128K context window and 140+ language support

Smolvlm2 2.2B Instruct

SmolVLM2-2.2B is a lightweight multimodal model designed for analyzing video content. It can process video, image, and text inputs and generate text outputs.

Transformers English

Uform Gen2 Qwen 500m

UForm-Gen is a small generative vision-language model primarily used for image caption generation and visual question answering.

Transformers English

Glamm FullScope

GLaMM-FullScope is a multimodal large model that integrates all capabilities of GLaMM, including scene dialogue generation, referring expression segmentation, region-level image description, image-level description generation, and visual question answering.

Yi-VL is an open-source multimodal vision-language model developed by 01.AI, supporting Chinese-English image-text dialogue and demonstrating excellent performance on MMMU and CMMMU benchmarks.

Blip2 Opt 2.7b 8bit

BLIP-2 is a vision-language pre-trained model that combines an image encoder and a large language model for image-to-text generation tasks.

Transformers English

Mediocreatmybest

Blip2 Image To Text

BLIP-2 is a vision-language pre-trained model that achieves language-image pre-training guidance by freezing the image encoder and large language model.

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase