图像文本到文本

2025年最佳的 3 个图像文本到文本工具

Mistral Community Pixtral 12b GGUF

这是pixtral-12b模型的量化版本，使用llama.cpp进行量化，支持图像文本到文本的任务。

图像文本到文本

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先进多模态大语言模型（MLLM），具备卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等。

图像文本到文本

Transformers 其他

InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型，整合了InternViT视觉编码器和Qwen2.5语言模型，具备卓越的多模态感知和推理能力。

图像文本到文本

Transformers 其他

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase