M

Molmo 7B D 0924 NF4

由 Scoolar 开发
Molmo-7B-D-0924的4Bit量化版本,通过NF4量化策略降低显存占用,适用于显存受限环境。
下载量 1,259
发布时间 : 1/31/2025

模型简介

该模型是对Molmo-7B-D-0924进行4Bit量化的版本,采用NF4量化策略,在降低模型大小和显存占用的同时,尽可能保证模型性能,适用于对显存要求较高的场景。

模型特点

NF4量化策略
采用NF4量化,同时在关键模块保留FP16,避免性能显著下降。
显存优化
模型加载时占用约7GB显存,推理时最多约10GB(4K图像输入),相比原始模型显著减少。
加载速度快
模型加载速度比原始模型显著加快,适合无服务器托管。
适配性好
可以在12GB的GPU上运行,并且允许在T4(16GB)上进行批处理。

模型能力

图像描述生成
视觉语言理解
多模态推理

使用案例

图像理解
图像描述生成
根据输入图像生成自然语言描述。
生成流畅、准确的图像描述。
无服务器托管
低显存环境部署
在显存受限的环境中部署视觉语言模型。
在12GB GPU上成功运行。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase