Model Selection

Cross-modal question answering

# Cross-modal question answering

Llama3.2 11B Vision Instruct INT4 GPTQ

Llama 3.2-Vision is a multimodal large language model developed by Meta, with image reasoning and text generation capabilities, supporting tasks such as visual recognition, image description, and question answering.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase