多语言视觉理解

# 多语言视觉理解

Qwen2.5 VL 72B Instruct GGUF

通义千问推出的多模态大模型，支持图像文本生成和128k长上下文处理，具备多语言能力。

图像生成文本英语

lmstudio-community

Internvl3 8B AWQ

InternVL3-8B是OpenGVLab推出的先进多模态大语言模型，具备强大的多模态感知与推理能力，支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。

图像生成文本

Transformers 其他

Internvl3 2B Instruct

InternVL3-2B-Instruct是基于InternVL3-2B的监督微调版本，经过原生多模态预训练和SFT处理，具备强大的多模态感知和推理能力。

文本生成图像

Transformers 其他

Aya Vision 32B是Cohere实验室开发的开放权重32B参数多模态模型，支持23种语言的视觉语言任务。

图像生成文本

Transformers 支持多种语言

Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型，支持23种语言的视觉和语言任务。

图像生成文本

Transformers 支持多种语言

Colqwen2.5 3b Multilingual V1.0

基于Qwen2.5-VL-3B-Instruct并采用ColBERT策略的多语言视觉检索器，在Vidore基准测试中表现优异

文本生成图像支持多种语言

Erax VL 2B V1.5 I1 GGUF

EraX-VL-2B-V1.5是一个多模态基础模型，支持越南语、英语和中文，具备图像转文本和图文转文本能力。

图像生成文本支持多种语言

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

这是一个基于Llama-3.2-11B-Vision-Instruct的多模态模型，支持图像和文本输入，并生成文本输出。

图像生成文本

Transformers 支持多种语言

Pix2struct Screen2words Base

Pix2Struct是一个视觉语言理解模型，专为从UI界面截图生成功能描述字幕而优化

图像生成文本

Transformers 支持多种语言

Pix2struct Infographics Vqa Base

Pix2Struct是一种视觉语言理解模型，通过预训练处理图像到文本转换任务，特别针对高分辨率信息图表的视觉问答进行了优化。

图像生成文本

Transformers 支持多种语言

Pix2struct Infographics Vqa Large

Pix2Struct是一种图像编码器-文本解码器模型，通过多任务训练处理视觉语言理解任务，特别针对高分辨率信息图表的视觉问答进行了优化。

图像生成文本

Transformers 支持多种语言

Pix2struct Textcaps Large

Pix2Struct是一个视觉语言理解模型，通过图像到文本的转换进行多任务训练，支持图像描述生成和视觉问答等任务。

图像生成文本

Transformers 支持多种语言

Pix2struct Textcaps Base

Pix2Struct是一个视觉语言理解模型，通过预训练和微调处理图像到文本的任务，特别适用于图像描述生成。

图像生成文本

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase