M

Molmo 7B D 0924 NF4

由Scoolar開發
Molmo-7B-D-0924的4Bit量化版本,通過NF4量化策略降低顯存佔用,適用於顯存受限環境。
下載量 1,259
發布時間 : 1/31/2025

模型概述

該模型是對Molmo-7B-D-0924進行4Bit量化的版本,採用NF4量化策略,在降低模型大小和顯存佔用的同時,儘可能保證模型性能,適用於對顯存要求較高的場景。

模型特點

NF4量化策略
採用NF4量化,同時在關鍵模塊保留FP16,避免性能顯著下降。
顯存優化
模型加載時佔用約7GB顯存,推理時最多約10GB(4K圖像輸入),相比原始模型顯著減少。
加載速度快
模型加載速度比原始模型顯著加快,適合無服務器託管。
適配性好
可以在12GB的GPU上運行,並且允許在T4(16GB)上進行批處理。

模型能力

圖像描述生成
視覺語言理解
多模態推理

使用案例

圖像理解
圖像描述生成
根據輸入圖像生成自然語言描述。
生成流暢、準確的圖像描述。
無服務器託管
低顯存環境部署
在顯存受限的環境中部署視覺語言模型。
在12GB GPU上成功運行。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase