🚀 Llama-3.1-Nemotron-Nano-VL-8B-V1
Llama-3.1-Nemotron-Nano-VL-8B-V1は、画像や動画をクエリし要約する能力を持つドキュメントインテリジェンスビジョン言語モデルです。データセンター、クラウド、エッジ環境での展開が可能です。
🚀 クイックスタート
依存関係のインストール
pip install transformers accelerate timm einops open-clip-torch
使用方法
from PIL import Image
from transformers import AutoImageProcessor, AutoModel, AutoTokenizer
path = "nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1"
model = AutoModel.from_pretrained(path, trust_remote_code=True, device_map="cuda").eval()
tokenizer = AutoTokenizer.from_pretrained(path)
image_processor = AutoImageProcessor.from_pretrained(path, trust_remote_code=True, device="cuda")
image1 = Image.open("images/example1a.jpeg")
image2 = Image.open("images/example1b.jpeg")
image_features = image_processor([image1, image2])
generation_config = dict(max_new_tokens=1024, do_sample=False, eos_token_id=tokenizer.eos_token_id)
question = 'Describe the two images.'
response = model.chat(
tokenizer=tokenizer, question=question, generation_config=generation_config,
**image_features)
print(f'User: {question}\nAssistant: {response}')
✨ 主な機能
- 画像や動画のクエリと要約が可能です。
- データセンター、クラウド、エッジ環境での展開が可能です。
- NVIDIA GPUアクセラレーションシステムでの高速なトレーニングと推論が可能です。
📦 インストール
依存関係のインストールには以下のコマンドを使用します。
pip install transformers accelerate timm einops open-clip-torch
📚 詳細ドキュメント
モデル概要
説明
Llama Nemotron Nano VLは、物理または仮想世界の画像や動画をクエリし要約する能力を持つ、最先端のドキュメントインテリジェンスビジョン言語モデル(VLMs)です。TinyChatフレームワークを通じたAWQ 4bit量子化により、データセンター、クラウド、エッジ(Jetson Orinやラップトップを含む)での展開が可能です。以下のことがわかっています。
- 画像とテキストのペアだけでは不十分で、画像とテキストを交互に配置することが重要です。
- 画像とテキストを交互に配置した事前学習中にLLMをフリーズ解除することで、コンテキスト内学習が可能になります。
- テキストのみの命令データを再ブレンドすることは、VLMとテキストのみのパフォーマンスを向上させるために重要です。
このモデルは、すべてのトレーニング段階で商用画像と動画を使用してトレーニングされ、単一の画像と動画の推論をサポートしています。
ライセンス/使用条件
適用条項
モデルの使用は、NVIDIA Open License Agreementに準拠します。追加情報:Llama 3.1 Community Model License; Built with Llama。
追加情報
Llama 3.1 Community Model License; Built with Llama。
展開地域
グローバル
ユースケース
顧客:AIファウンダリーの企業顧客
ユースケース:画像要約、テキスト-画像分析、光学文字認識、画像上のインタラクティブな質問応答、複数の画像の比較と対比、テキストの思考連鎖推論
リリース日
モデルアーキテクチャ
属性 |
詳情 |
ネットワークタイプ |
Transformer |
ネットワークアーキテクチャ |
ビジョンエンコーダ: CRadioV2-H;言語エンコーダ: Llama-3.1-8B-Instruct |
入力タイプ |
画像、動画、テキスト |
サポートされる入力画像 |
16K入力 + 出力トークン内の複数の画像 |
サポートされる言語 |
英語のみ |
入力形式 |
画像 (Red, Green, Blue (RGB))、動画 (.mp4)、テキスト (文字列) |
入力パラメータ |
画像 (2D)、動画 (3D)、テキスト (1D) |
入力に関連するその他のプロパティ |
入力 + 出力トークン: 16K;最大解像度: 12タイルレイアウト制約によって決定され、各タイルは512 × 512ピクセル。以下のアスペクト比をサポート: 4 × 3レイアウト: 最大2048 × 1536ピクセル;3 × 4レイアウト: 最大1536 × 2048ピクセル;2 × 6レイアウト: 最大1024 × 3072ピクセル;6 × 2レイアウト: 最大3072 × 1024ピクセル;他の構成も許可されますが、合計タイル数 ≤ 12;チャンネル数: 3チャンネル (RGB);アルファチャンネル: サポートされていません (透明度なし) |
出力タイプ |
テキスト |
出力形式 |
文字列 |
出力パラメータ |
1D |
出力に関連するその他のプロパティ |
入力 + 出力トークン: 16K |
当社のAIモデルは、NVIDIA GPUアクセラレーションシステム上で実行するように設計および/または最適化されています。NVIDIAのハードウェア(GPUコアなど)とソフトウェアフレームワーク(CUDAライブラリなど)を活用することで、CPUのみのソリューションと比較して、より高速なトレーニングと推論時間を実現します。
ソフトウェア統合
- ランタイムエンジン: TensorRT-LLM
- サポートされるハードウェアマイクロアーキテクチャ互換性: H100 SXM 80GB
- サポートされるオペレーティングシステム: Linux
モデルバージョン
Llama-3.1-Nemotron-Nano-VL-8B-V1
トレーニング/評価データセット
トレーニングと評価には、NV-PretrainingとNV-CosmosNemotron-SFTが使用されました。
データセット別のデータ収集方法(トレーニングと評価)
データセット別のラベリング方法(トレーニングと評価)
さらに、トレーニングと評価用のデータセット収集には、さまざまなタスクのトレーニングと評価用に設計された内部データセットと公開データセットが混在しています。以下のものが含まれます。
- 公開商用画像と内部ラベルを使用して構築された内部データセット。会話モデリングやドキュメント分析などのタスクをサポートします。
- 公開画像とアノテーションから取得された公開データセット。画像キャプショニングやビジュアル質問応答などのタスクに適応されています。
- 特定のタスク(表形式データの理解など)用にプログラムで生成された合成データセット。
- 安全性アライメント、関数呼び出し、ドメイン固有のタスク(科学図、金融質問応答など)用の専用データセット。
評価ベンチマーク
ベンチマーク |
スコア |
MMMU Val with chatGPT as a judge |
48.2% |
AI2D |
85.0% |
ChartQA |
86.3% |
InfoVQA Val |
77.4% |
OCRBench |
839 |
OCRBenchV2 English |
60.1% |
OCRBenchV2 Chinese |
37.9% |
DocVQA val |
91.2% |
VideoMME |
54.7% |
推論
- エンジン: TTensorRT-LLM
- テストハードウェア:
倫理的な考慮事項
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。このモデルの倫理的な考慮事項の詳細については、Model Card++のExplainability、Bias、Safety & Security、Privacyサブカードを参照してください。セキュリティ脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。
ユーザーは、モデルの入力と出力に責任があります。ユーザーは、このモデルを安全に統合する責任があり、展開前にガードレールやその他の安全メカニズムを実装する必要があります。
これらのモデルによって生成される出力には、政治的な内容やその他の誤解を招く可能性のある情報、コンテンツの安全性やセキュリティの問題、または当社の監視とは無関係の不要なバイアスが含まれる場合があります。
📄 ライセンス
このモデルの使用は、NVIDIA Open License Agreementに準拠します。追加情報:Llama 3.1 Community Model License; Built with Llama。Llama 3.1 Community Model Licenseも参照してください。