N

Nanovlm 450M

由 lusxvr 开发
nanoVLM是一款轻量级的视觉语言模型(VLM),专为高效训练和实验而设计。
下载量 339
发布时间 : 6/2/2025

模型简介

nanoVLM结合了基于ViT的图像编码器与轻量级因果语言模型,形成一个紧凑的视觉语言模型,适合快速实验和高效训练。

模型特点

轻量级设计
整个模型架构和训练逻辑仅约750行代码,便于理解和修改。
参数紧凑
结合图像编码器和语言模型后,仅2.22亿参数,适合快速实验。
高效训练
专为高效训练而设计,能在较短时间内完成实验。

模型能力

视觉语言理解
多模态任务处理
图像到文本生成

使用案例

研究
视觉语言模型实验
用于快速原型设计和实验,验证新的视觉语言模型架构或训练方法。
教育
模型学习
作为学习视觉语言模型的入门工具,便于理解模型架构和训练流程。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase