Llama-3.1-Nemotron-Nano-VL-8B-V1オープンソースモデル - 無料でデプロイしてクエリをまとめた文章、画像、動画

ホーム

Llama 3.1 Nemotron Nano VL 8B V1

nvidiaによって開発

Llama-3.1-Nemotron-Nano-VL-8B-V1は、高度な文書インテリジェントビジュアル言語モデルで、画像や動画のクエリと要約が可能で、複数の環境にデプロイできます。

画像生成テキスト

Transformers

オープンソースライセンス:その他 #文書の高度な分析 #複数画像の比較推論 #エッジデバイスへのデプロイ

ダウンロード数 1,092

リリース時間 : 6/3/2025

モデル概要

このモデルは、リーディングな文書インテリジェントビジュアル言語モデルで、現実または仮想世界の画像や動画のクエリと要約が可能です。データセンター、クラウド、エッジデバイスなどの様々な環境にデプロイでき、画像分析や質問応答などの多くの分野で広く使用されます。

モデル特徴

強力な文書インテリジェンス

画像や動画のクエリと要約が可能で、マルチモーダル入出力をサポートします。

多環境デプロイ

データセンター、クラウド、エッジデバイス（Jetson Orinやノートパソコンなど）にデプロイでき、AWQ 4bit量子化とTinyChatフレームワークをサポートします。

マルチモーダルサポート

画像、動画、テキストの入力をサポートし、出力はテキストで、様々なタスクに適しています。

モデル能力

画像分析

動画要約

テキスト生成

複数画像の比較

光学文字認識

対話型質問応答

使用事例

文書インテリジェンス

画像要約

単一または複数の画像の内容を要約し、説明します。

テキスト - 画像分析

テキストと画像を組み合わせて総合的に分析し、詳細な説明を生成したり、関連する質問に回答します。

ビジュアル質問応答

画像対話型質問応答

画像の内容に基づいて、ユーザーの質問に回答します。

複数画像の比較と対比

複数の画像の類似点と相違点を比較し、対比分析結果を生成します。

🚀 Llama-3.1-Nemotron-Nano-VL-8B-V1

Llama-3.1-Nemotron-Nano-VL-8B-V1は、画像や動画をクエリし要約する能力を持つドキュメントインテリジェンスビジョン言語モデルです。データセンター、クラウド、エッジ環境での展開が可能です。

🚀 クイックスタート

依存関係のインストール

pip install transformers accelerate timm einops open-clip-torch

使用方法

from PIL import Image
from transformers import AutoImageProcessor, AutoModel, AutoTokenizer

path = "nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1"
model = AutoModel.from_pretrained(path, trust_remote_code=True, device_map="cuda").eval()
tokenizer = AutoTokenizer.from_pretrained(path)
image_processor = AutoImageProcessor.from_pretrained(path, trust_remote_code=True, device="cuda")

image1 = Image.open("images/example1a.jpeg")
image2 = Image.open("images/example1b.jpeg")
image_features = image_processor([image1, image2])

generation_config = dict(max_new_tokens=1024, do_sample=False, eos_token_id=tokenizer.eos_token_id)

question = 'Describe the two images.'
response = model.chat(
    tokenizer=tokenizer, question=question, generation_config=generation_config,
    **image_features)

print(f'User: {question}\nAssistant: {response}')

✨ 主な機能

画像や動画のクエリと要約が可能です。
データセンター、クラウド、エッジ環境での展開が可能です。
NVIDIA GPUアクセラレーションシステムでの高速なトレーニングと推論が可能です。

📦 インストール

依存関係のインストールには以下のコマンドを使用します。

pip install transformers accelerate timm einops open-clip-torch

📚 詳細ドキュメント

モデル概要

説明

Llama Nemotron Nano VLは、物理または仮想世界の画像や動画をクエリし要約する能力を持つ、最先端のドキュメントインテリジェンスビジョン言語モデル（VLMs）です。TinyChatフレームワークを通じたAWQ 4bit量子化により、データセンター、クラウド、エッジ（Jetson Orinやラップトップを含む）での展開が可能です。以下のことがわかっています。

画像とテキストのペアだけでは不十分で、画像とテキストを交互に配置することが重要です。
画像とテキストを交互に配置した事前学習中にLLMをフリーズ解除することで、コンテキスト内学習が可能になります。
テキストのみの命令データを再ブレンドすることは、VLMとテキストのみのパフォーマンスを向上させるために重要です。

このモデルは、すべてのトレーニング段階で商用画像と動画を使用してトレーニングされ、単一の画像と動画の推論をサポートしています。

ライセンス/使用条件

適用条項
モデルの使用は、NVIDIA Open License Agreementに準拠します。追加情報：Llama 3.1 Community Model License; Built with Llama。

追加情報
Llama 3.1 Community Model License; Built with Llama。

展開地域

グローバル

ユースケース

顧客：AIファウンダリーの企業顧客
ユースケース：画像要約、テキスト-画像分析、光学文字認識、画像上のインタラクティブな質問応答、複数の画像の比較と対比、テキストの思考連鎖推論

リリース日

Build.Nvidia.com [2025年6月3日] via nvidia/llama-3.1-nemotron-nano-vl-8b-v1
Hugging Face [2025年6月3日]

モデルアーキテクチャ

属性	詳情
ネットワークタイプ	Transformer
ネットワークアーキテクチャ	ビジョンエンコーダ: CRadioV2-H；言語エンコーダ: Llama-3.1-8B-Instruct
入力タイプ	画像、動画、テキスト
サポートされる入力画像	16K入力 + 出力トークン内の複数の画像
サポートされる言語	英語のみ
入力形式	画像 (Red, Green, Blue (RGB))、動画 (.mp4)、テキスト (文字列)
入力パラメータ	画像 (2D)、動画 (3D)、テキスト (1D)
入力に関連するその他のプロパティ	入力 + 出力トークン: 16K；最大解像度: 12タイルレイアウト制約によって決定され、各タイルは512 × 512ピクセル。以下のアスペクト比をサポート: 4 × 3レイアウト: 最大2048 × 1536ピクセル；3 × 4レイアウト: 最大1536 × 2048ピクセル；2 × 6レイアウト: 最大1024 × 3072ピクセル；6 × 2レイアウト: 最大3072 × 1024ピクセル；他の構成も許可されますが、合計タイル数 ≤ 12；チャンネル数: 3チャンネル (RGB)；アルファチャンネル: サポートされていません (透明度なし)
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	1D
出力に関連するその他のプロパティ	入力 + 出力トークン: 16K

当社のAIモデルは、NVIDIA GPUアクセラレーションシステム上で実行するように設計および/または最適化されています。NVIDIAのハードウェア（GPUコアなど）とソフトウェアフレームワーク（CUDAライブラリなど）を活用することで、CPUのみのソリューションと比較して、より高速なトレーニングと推論時間を実現します。

ソフトウェア統合

ランタイムエンジン: TensorRT-LLM
サポートされるハードウェアマイクロアーキテクチャ互換性: H100 SXM 80GB
サポートされるオペレーティングシステム: Linux

モデルバージョン

Llama-3.1-Nemotron-Nano-VL-8B-V1

トレーニング/評価データセット

トレーニングと評価には、NV-PretrainingとNV-CosmosNemotron-SFTが使用されました。

データセット別のデータ収集方法（トレーニングと評価）

ハイブリッド: 人間、合成

データセット別のラベリング方法（トレーニングと評価）

ハイブリッド: 人間、合成

さらに、トレーニングと評価用のデータセット収集には、さまざまなタスクのトレーニングと評価用に設計された内部データセットと公開データセットが混在しています。以下のものが含まれます。

公開商用画像と内部ラベルを使用して構築された内部データセット。会話モデリングやドキュメント分析などのタスクをサポートします。
公開画像とアノテーションから取得された公開データセット。画像キャプショニングやビジュアル質問応答などのタスクに適応されています。
特定のタスク（表形式データの理解など）用にプログラムで生成された合成データセット。
安全性アライメント、関数呼び出し、ドメイン固有のタスク（科学図、金融質問応答など）用の専用データセット。

評価ベンチマーク

ベンチマーク	スコア
MMMU Val with chatGPT as a judge	48.2%
AI2D	85.0%
ChartQA	86.3%
InfoVQA Val	77.4%
OCRBench	839
OCRBenchV2 English	60.1%
OCRBenchV2 Chinese	37.9%
DocVQA val	91.2%
VideoMME	54.7%

推論

エンジン: TTensorRT-LLM
テストハードウェア:
- 1x NVIDIA H100 SXM 80GB

倫理的な考慮事項

NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。このモデルの倫理的な考慮事項の詳細については、Model Card++のExplainability、Bias、Safety & Security、Privacyサブカードを参照してください。セキュリティ脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。

ユーザーは、モデルの入力と出力に責任があります。ユーザーは、このモデルを安全に統合する責任があり、展開前にガードレールやその他の安全メカニズムを実装する必要があります。

これらのモデルによって生成される出力には、政治的な内容やその他の誤解を招く可能性のある情報、コンテンツの安全性やセキュリティの問題、または当社の監視とは無関係の不要なバイアスが含まれる場合があります。