Model Selection

Multilingual Visual Understanding

# Multilingual Visual Understanding

Internvl3 8B AWQ

InternVL3-8B is an advanced multimodal large language model developed by OpenGVLab, featuring powerful multimodal perception and reasoning capabilities, supporting tool calling, GUI agents, industrial image analysis, 3D visual perception, and other emerging fields.

Transformers Other

Internvl3 2B Instruct

InternVL3-2B-Instruct is a supervised fine-tuned version based on InternVL3-2B, undergoing native multimodal pretraining and SFT processing, equipped with powerful multimodal perception and reasoning capabilities.

Transformers Other

Colqwen2.5 3b Multilingual V1.0

A multilingual visual retriever based on Qwen2.5-VL-3B-Instruct with ColBERT strategy, excelling in Vidore benchmark tests

Text-to-Image Supports Multiple Languages

Erax VL 2B V1.5 I1 GGUF

EraX-VL-2B-V1.5 is a multimodal foundation model supporting Vietnamese, English, and Chinese, with capabilities for image-to-text and image-text-to-text conversion.

Image-to-Text Supports Multiple Languages

Pix2struct Infographics Vqa Base

Pix2Struct is a vision-language understanding model pretrained for image-to-text conversion tasks, specifically optimized for high-resolution infographic visual question answering.

Transformers Supports Multiple Languages

Pix2struct Infographics Vqa Large

Pix2Struct is an image encoder-text decoder model trained through multi-task learning for visual-language understanding tasks, specifically optimized for visual question answering on high-resolution infographics.

Transformers Supports Multiple Languages

Pix2struct Textcaps Large

Pix2Struct is a vision-language understanding model trained via image-to-text conversion for multitasking, supporting tasks like image caption generation and visual question answering.

Transformers Supports Multiple Languages

Pix2struct Textcaps Base

Pix2Struct is a vision-language understanding model that processes image-to-text tasks through pre-training and fine-tuning, particularly suitable for image caption generation.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase