nanoVLMオープンソースビジュアル言語モデル - 軽量設計が効率的なトレーニングと実験を支援

ホーム

Nanovlm

anditoによって開発

nanoVLMは、効率的なトレーニングと実験を目的として設計された軽量な視覚言語モデル（VLM）です。

画像生成テキスト

Safetensors

オープンソースライセンス:MIT #軽量視覚言語 #マルチモーダル実験 #コンパクトなパラメータ

ダウンロード数 187

リリース時間 : 5/26/2025

モデル概要

nanoVLMは、ViTベースの画像エンコーダと軽量な因果言語モデルを組み合わせて、マルチモーダルタスクに適したコンパクトな視覚言語モデルを形成します。

モデル特徴

軽量設計

モデル全体のアーキテクチャとトレーニングロジックは約750行のコードで構成されており、理解と実験が容易です。

パラメータのコンパクト性

画像エンコーダと言語モデルを組み合わせても、わずか2.22億のパラメータであり、効率的なトレーニングとデプロイに適しています。

モデル能力

画像テキスト生成

マルチモーダル理解

使用事例

研究実験

視覚言語モデルの研究

軽量視覚言語モデルの性能と効率を研究するために使用されます。

🚀 nanoVLM

nanoVLM は、効率的なトレーニングと実験を目的として設計された軽量なビジュアル言語モデル（VLM）です。純粋な PyTorch をベースに構築されており、モデルのアーキテクチャとトレーニングロジック全体が約 750 行のコードで構成されています。このモデルは、ViT ベースの画像エンコーダ（SigLIP - B/16 - 224 - 85M）と軽量な因果言語モデル（SmolLM2 - 135M）を組み合わせ、わずか 2.22 億のパラメータを持つコンパクトなモデルを形成しています。

🚀 クイックスタート

リポジトリのクローン

nanoVLM のリポジトリをクローンします：https://github.com/huggingface/nanoVLM。

インストールと使用

インストール手順に従って操作し、以下のコードを実行します：

from models.vision_language_model import VisionLanguageModel

model = VisionLanguageModel.from_pretrained("andito/nanoVLM")

✨ 主な機能

軽量設計：モデルのアーキテクチャとトレーニングロジック全体が約 750 行のコードで構成されており、理解と実験が容易です。
パラメータのコンパクト性：画像エンコーダと言語モデルを組み合わせても、わずか 2.22 億のパラメータです。

📦 インストール

具体的なインストール手順はドキュメントに記載されていません。クローンしたリポジトリの説明に従ってインストールしてください。

💻 使用例

基本的な使用法

from models.vision_language_model import VisionLanguageModel

model = VisionLanguageModel.from_pretrained("andito/nanoVLM")

📚 ドキュメント

詳細な情報は、ベースモデルを参照してください：https://huggingface.co/lusxvr/nanoVLM - 222M。

📄 ライセンス

このプロジェクトは MIT ライセンスの下で提供されています。

モデル情報

属性	詳細
ライブラリ名	nanovlm
ライセンス	MIT
タスクタイプ	画像テキストからテキスト
タグ	ビジュアル言語、マルチモーダル、研究