图像文本到文本

2025年最佳的 4 个图像文本到文本工具

Gemma 3 4b It GGUF

Gemma-3-4b-it-GGUF 是对 Google 的 Gemma-3-4b-it 模型进行量化处理的版本，使其能在 LlamaEdge 上运行，适用于图像文本到文本的转换任务。

图像文本到文本

Mistral Community Pixtral 12b GGUF

这是pixtral-12b模型的量化版本，使用llama.cpp进行量化，支持图像文本到文本的任务。

图像文本到文本

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先进多模态大语言模型（MLLM），具备卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等。

图像文本到文本

Transformers 其他

InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型，整合了InternViT视觉编码器和Qwen2.5语言模型，具备卓越的多模态感知和推理能力。

图像文本到文本

Transformers 其他

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase