Model Selection

Image Content Understanding

# Image Content Understanding

Typhoon2 Qwen2vl 7b Vision Instruct

Typhoon2-Vision is a Thai-supported visual language model capable of processing image and video inputs, specifically optimized for image-based applications.

Transformers Supports Multiple Languages

Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit

The int4 quantized version of MiniCPM-Llama3-V 2.5, significantly reducing GPU VRAM usage (approximately 9GB)

Minicpm Llama3 V 2 5 Int4

The int4 quantized version of MiniCPM-Llama3-V 2.5 significantly reduces GPU VRAM usage to approximately 9GB, suitable for visual question answering tasks.

Tinyllava 1.1b V0.1

A lightweight visual question answering model based on TinyLlama-1.1B, trained using the BakLlava codebase

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase