N

Nanovlm 222M

lusxvrによって開発
nanoVLMは、効率的なトレーニングと実験のために設計された極めて軽量な視覚言語モデル(VLM)です。
ダウンロード数 2,441
リリース時間 : 5/1/2025

モデル概要

nanoVLMは、ViTベースの画像エンコーダーと軽量な因果言語モデルを組み合わせ、低リソース環境でのVLM研究と開発に適した2億2200万パラメータのコンパクトなモデルを形成します。

モデル特徴

軽量設計
モデルアーキテクチャとトレーニングロジック全体を約750行のコードで実装し、パラメータ規模はわずか2億2200万です。
効率的なトレーニング
単一のH100 GPUでわずか6時間でトレーニングを完了でき、迅速な実験に適しています。
マルチモーダルアーキテクチャ
視覚Transformerと因果言語モデルを組み合わせ、画像とテキストの統合処理を実現します。
低リソース研究ベースライン
MMStarベンチマークで35.3%の精度を達成し、低リソースVLM研究の参考を提供します。

モデル能力

視覚言語理解
画像テキスト生成
マルチモーダルタスク処理

使用事例

研究
視覚言語モデル研究
VLMアーキテクチャとトレーニング方法の研究のための軽量ベースモデルとして使用
35.3%のMMStarベンチマーク精度リファレンスを提供
教育
マルチモーダル学習
マルチモーダルモデルの基本原理を教え、デモンストレーションするために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase