library_name: transformers
license: other
license_name: nvidia-internal-scientific-research-and-development-model-license
license_link: >-
https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/
pipeline_tag: text-generation
language:
- en
- de
- es
- fr
- it
- ko
- pt
- ru
- jp
- zh
tags:
- nvidia
- pytorch
- nemotron-h
Nemotron-H-56B-Base-8K
モデル概要
NVIDIA Nemotron-H-56B-Base-8Kは、NVIDIAが開発した大規模言語モデル(LLM)で、与えられたテキストに対する補完モデルとして設計されています。このモデルは主にMamba-2層とMLP層を組み合わせたハイブリッドアーキテクチャを採用し、わずか10層のAttention層を含んでいます。コンテキスト長は8Kトークンです。対応言語は英語、ドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語です。モデルアーキテクチャ、トレーニング、評価に関する詳細は、プロジェクトページと技術レポートをご覧ください。
特定のタスクで最高のパフォーマンスを得るためには、NeMo Frameworkのカスタマイズツール(Parameter-Efficient Fine-Tuning(P-tuning、Adapters、LoRAなど)やNeMo-Alignerを使用したモデルアライメント(SFT、SteerLM、RLHFなど))を使用してモデルをカスタマイズすることをお勧めします。
このモデルは研究開発専用です。
このモデルはNemotron-Hコレクションの一部です。このファミリーのモデルは以下で確認できます:
ライセンス/利用規約
利用規約:このモデルの使用はNVIDIA Internal Scientific Research and Development Model Licenseに準拠します。
モデル開発者: NVIDIA
モデル開発期間:
2024年10月 - 2025年3月
データ鮮度:
2024年9月
事前学習データの最終更新日は2024年9月です。
使用ケース:
このモデルはLLMを構築する開発者や研究者向けです。
リリース日:
2025年4月14日
参考文献
モデルアーキテクチャ
- アーキテクチャタイプ: ハイブリッドMamba-Transformer
- ネットワークアーキテクチャ: Nemotron-H
このモデルは560億のパラメータを持ちます。
入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 1次元(1D)シーケンス
- 入力関連のその他特性: 最大8Kトークンのコンテキスト長。対応言語はドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語、英語。
出力
- 出力タイプ: テキスト
- 出力形式: 文字列
- 出力パラメータ: 1次元(1D)シーケンス
当社のAIモデルは、NVIDIA GPUアクセラレーテッドシステムで動作するように設計および最適化されています。NVIDIAのハードウェア(GPUコアなど)とソフトウェアフレームワーク(CUDAライブラリなど)を活用することで、CPUのみのソリューションと比較して高速なトレーニングと推論を実現しています。
ソフトウェア統合
- ランタイムエンジン: NeMo 24.12
- 対応ハードウェアマイクロアーキテクチャ: NVIDIA H100-80GB、NVIDIA A100
- 対応オペレーティングシステム: Linux
モデルバージョン
プロンプト形式
これはベースモデルであるため、特定のプロンプト形式は推奨も要求もされません。
例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "NVIDIAはいつ設立されましたか?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
トレーニング、テスト、評価データセット
トレーニング & テストデータセット:
Nemotron-H-56B-Base-8Kベースのトレーニングコーパスは、英語と多言語テキスト(ドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語、英語)およびコードで構成されています。データソースは、ウェブページ、対話、記事、その他の文書など、さまざまなドキュメントタイプをカバーしています。このモデルはQwen(Qwenで構築)からの合成データを使用して改善されました。コーパスは、法律、数学、科学、金融などの分野にまたがります。また、モデルの精度を向上させるために、質問応答やアライメントスタイルのデータの一部も含まれています。
トレーニング & テストデータセットのデータ収集方法:
ハイブリッド: 自動化、人間、合成
トレーニング & テストデータセットのデータラベリング:
ハイブリッド: 自動化、人間、合成
評価データセット
Nemotron-H-56B-Base-8Kベースの評価には、次のセクションでリストされているデータセットを使用しました。
評価データセットのデータ収集方法:
ハイブリッド: 人間、合成
評価データセットのデータラベリング方法:
ハイブリッド: 人間、合成、自動
常識理解評価:
ARC Challenge 25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
94.97 |
89.00 |
84.45 |
86.73 |
- ARC (Ai2 reasoning challenge)-Challenge - 言語モデルの質問応答能力を評価するための小学校レベルの多肢選択科学問題を含むベンチマークからの問題セット。データセット
- Hellaswag - 言語モデルが提供されたコンテキストを正しく完了できるかをテスト。データセット
- Winogrande - 常識的推論を必要とする文に対して正しい選択肢を選ぶ能力をテスト。データセット
- CommonsenseQA - さまざまな種類の常識的知識を必要とする多肢選択質問応答データセット。データセット
コーディング評価:
MBPP (sanitized) 3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
77.82 |
67.20 |
60.37 |
54.27 |
- MBPP (Mostly Basic Python Programming Problems) - Pythonプログラミングタスクに対する解決策を生成する能力を評価。データセット
- MBPP+ - MBPPの拡張版で、追加の検証を含む。データセット
- HumanEval - Pythonでのコード生成と完了能力をテスト。データセット
数学評価:
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
93.71 |
59.42 |
35.19 |
57.37 |
- GSM8K (Grade School Math 8K) - 小学校レベルの数学文章問題解決能力を評価。データセット
- MATH - 複数の難易度レベルとさまざまな科目(初等代数、代数、数論、確率論、幾何学、中級代数、微積分前準備)にわたる数学的能力をテスト。データセット
- MATH Lvl 5 - MATHデータセットから最も難しい問題のみを抽出。データセット
- MATH-500 - 代数、幾何学、微積分にわたる高度な数学的問題解決能力をテスト。データセット
一般評価:
MMLU-Pro 5-shot CoT |
MMLU 5-shot |
60.51 |
84.21 |
- MMLU Pro - 14の多様なドメインにわたる挑戦的で推論に焦点を当てた質問を通じて、言語理解モデルを評価。
データセット
- MMLU - 科学、人文科学、数学など57の科目にわたる知識をテスト。データセット
使用における潜在的な既知リスク
このモデルは、インターネットからクロールされた有毒な言語、安全でないコンテンツ、社会的バイアスを含むデータでトレーニングされています。そのため、特に有毒なプロンプトが与えられた場合、モデルはこれらのバイアスを増幅し、有毒な応答を返す可能性があります。モデルは、明示的に攻撃的でないプロンプトであっても、不正確な回答を生成したり、重要な情報を省略したり、社会的に受け入れられないまたは望ましくないテキストを含む無関係または冗長なテキストを生成する可能性があります。
このモデルは、Base16、Hex/ASCII、点字などのいくつかのエンコーディングを介した間接的なプロンプトインジェクションに対して弱点を示しますが、より一般的なBase64ベクトルを使用したインジェクションに対しては他の類似モデルよりも耐性があります。
推論
- エンジン: NeMo
- テストハードウェア NVIDIA H100-80GB
倫理的考慮事項
NVIDIAは、信頼できるAIは共有された責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。当社の利用規約に従ってダウンロードまたは使用する場合、開発者は内部モデルチームと協力して、このモデルが関連業界と使用ケースの要件を満たし、予期しない製品の誤用に対処していることを確認する必要があります。
このモデルに関する倫理的考慮事項の詳細については、http://nvidia.com/nemotron-responsible-useで入手可能な責任ある使用ガイドをご覧ください。
セキュリティの脆弱性やNVIDIA AIに関する懸念はこちらから報告してください。