N

Nanovlm

由 andito 开发
nanoVLM 是一款轻量级的视觉语言模型(VLM),专为高效训练和实验而设计。
下载量 187
发布时间 : 5/26/2025

模型简介

nanoVLM 结合了基于 ViT 的图像编码器和轻量级因果语言模型,形成一个紧凑的视觉语言模型,适用于多模态任务。

模型特点

轻量级设计
整个模型架构和训练逻辑仅约750行代码,便于理解和实验。
参数紧凑
结合图像编码器和语言模型后,仅有2.22亿参数,适合高效训练和部署。

模型能力

图像文本生成
多模态理解

使用案例

研究实验
视觉语言模型研究
用于研究轻量级视觉语言模型的性能和效率。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase