Model Selection

Multimodal visual reasoning

# Multimodal visual reasoning

Llama3.2 11B Vision Instruct INT4 GPTQ

Llama 3.2-Vision is a multimodal large language model developed by Meta, with image reasoning and text generation capabilities, supporting tasks such as visual recognition, image description, and question answering.

Transformers Supports Multiple Languages

Phi 3.5 Vision Instruct

Phi-3.5-vision is a lightweight, cutting-edge open multimodal model supporting 128K context length, focusing on high-quality, reasoning-rich text and visual data.

Transformers Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase