N

Nanovlm 450M

由lusxvr開發
nanoVLM是一款輕量級的視覺語言模型(VLM),專為高效訓練和實驗而設計。
下載量 339
發布時間 : 6/2/2025

模型概述

nanoVLM結合了基於ViT的圖像編碼器與輕量級因果語言模型,形成一個緊湊的視覺語言模型,適合快速實驗和高效訓練。

模型特點

輕量級設計
整個模型架構和訓練邏輯僅約750行代碼,便於理解和修改。
參數緊湊
結合圖像編碼器和語言模型後,僅2.22億參數,適合快速實驗。
高效訓練
專為高效訓練而設計,能在較短時間內完成實驗。

模型能力

視覺語言理解
多模態任務處理
圖像到文本生成

使用案例

研究
視覺語言模型實驗
用於快速原型設計和實驗,驗證新的視覺語言模型架構或訓練方法。
教育
模型學習
作為學習視覺語言模型的入門工具,便於理解模型架構和訓練流程。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase