AIbase
首页
AI产品库
模型广场
MCP服务库
AI资讯
ZH
首页
全部分类
图像文本到文本

2025年最佳的 3 个图像文本到文本工具

Mistral Community Pixtral 12b GGUF
Apache-2.0
这是pixtral-12b模型的量化版本,使用llama.cpp进行量化,支持图像文本到文本的任务。
图像文本到文本
M
bartowski
1,728
4
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
图像文本到文本 Transformers 其他
I
OpenGVLab
677
1
Internvl3 1B
其他
InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型,整合了InternViT视觉编码器和Qwen2.5语言模型,具备卓越的多模态感知和推理能力。
图像文本到文本 Transformers 其他
I
FriendliAI
71
1
AIbase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
© 2025AIbase