Nemotron H 56B Base 8K

nvidiaによって開発

Nemotron-H-56B-Base-8KはNVIDIAが開発した大規模言語モデルで、混合Mamba-Transformerアーキテクチャを採用し、8Kのコンテキスト長と多言語テキスト生成をサポートします。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #混合Mamba-Transformerアーキテクチャ #8K長文処理 #多言語テキスト生成

ダウンロード数 904

リリース時間 : 4/8/2025

モデル概要

このモデルはテキスト補完タスク向けに設計されており、英語、ドイツ語、スペイン語など複数言語をサポートし、研究開発シナリオに適しています。

モデル特徴

ハイブリッドアーキテクチャ

Mamba-2とMLP層を組み合わせ、わずか10のアテンション層で構成され、計算効率を最適化しています。

多言語サポート

中国語、英語、日本語など10言語のテキスト生成をサポートします。

長文コンテキスト処理

8Kのコンテキスト長をサポートし、長文タスクの処理に適しています。

効率的な推論

NVIDIA GPU向けに最適化され、高速なトレーニングと推論性能を提供します。

モデル能力

テキスト生成

多言語サポート

長文コンテキスト処理

コード生成

数学問題解答

使用事例

研究開発

言語モデル研究

大規模言語モデルの性能と改善方法を探求するために使用されます。

テキスト補完

一貫性のあるテキスト補完を生成し、執筆支援ツールに適しています。

教育

数学問題解答

小学校から上級数学問題まで解答し、多段階推論をサポートします。

GSM8K 8-shot CoT正解率93.71

プログラミング支援

コード生成

Pythonコードソリューションを生成し、プログラミングタスクに適しています。

MBPP（精製版）3-shot正解率77.82

library_name: transformers license: other license_name: nvidia-internal-scientific-research-and-development-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/ pipeline_tag: text-generation language:

en
de
es
fr
it
ko
pt
ru
jp
zh tags:
nvidia
pytorch
nemotron-h

Nemotron-H-56B-Base-8K

モデル概要

NVIDIA Nemotron-H-56B-Base-8Kは、NVIDIAが開発した大規模言語モデル（LLM）で、与えられたテキストに対する補完モデルとして設計されています。このモデルは主にMamba-2層とMLP層を組み合わせたハイブリッドアーキテクチャを採用し、わずか10層のAttention層を含んでいます。コンテキスト長は8Kトークンです。対応言語は英語、ドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語です。モデルアーキテクチャ、トレーニング、評価に関する詳細は、プロジェクトページと技術レポートをご覧ください。

特定のタスクで最高のパフォーマンスを得るためには、NeMo Frameworkのカスタマイズツール（Parameter-Efficient Fine-Tuning（P-tuning、Adapters、LoRAなど）やNeMo-Alignerを使用したモデルアライメント（SFT、SteerLM、RLHFなど））を使用してモデルをカスタマイズすることをお勧めします。

このモデルは研究開発専用です。

このモデルはNemotron-Hコレクションの一部です。このファミリーのモデルは以下で確認できます：

ライセンス/利用規約

利用規約：このモデルの使用はNVIDIA Internal Scientific Research and Development Model Licenseに準拠します。

モデル開発者: NVIDIA

モデル開発期間:

2024年10月 - 2025年3月

データ鮮度:

2024年9月

事前学習データの最終更新日は2024年9月です。

使用ケース:

このモデルはLLMを構築する開発者や研究者向けです。

リリース日:

2025年4月14日

参考文献

[2504.03624] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

モデルアーキテクチャ

アーキテクチャタイプ: ハイブリッドMamba-Transformer
ネットワークアーキテクチャ: Nemotron-H

このモデルは560億のパラメータを持ちます。

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 1次元（1D）シーケンス
入力関連のその他特性: 最大8Kトークンのコンテキスト長。対応言語はドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語、英語。

出力

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 1次元（1D）シーケンス

当社のAIモデルは、NVIDIA GPUアクセラレーテッドシステムで動作するように設計および最適化されています。NVIDIAのハードウェア（GPUコアなど）とソフトウェアフレームワーク（CUDAライブラリなど）を活用することで、CPUのみのソリューションと比較して高速なトレーニングと推論を実現しています。

ソフトウェア統合

ランタイムエンジン: NeMo 24.12
対応ハードウェアマイクロアーキテクチャ: NVIDIA H100-80GB、NVIDIA A100
対応オペレーティングシステム: Linux

モデルバージョン

v1.0

プロンプト形式

これはベースモデルであるため、特定のプロンプト形式は推奨も要求もされません。

例

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# トークナイザーとモデルをロード
tokenizer  = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

prompt = "NVIDIAはいつ設立されましたか？"

outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))

トレーニング、テスト、評価データセット

トレーニング & テストデータセット:

Nemotron-H-56B-Base-8Kベースのトレーニングコーパスは、英語と多言語テキスト（ドイツ語、スペイン語、フランス語、イタリア語、韓国語、ポルトガル語、ロシア語、日本語、中国語、英語）およびコードで構成されています。データソースは、ウェブページ、対話、記事、その他の文書など、さまざまなドキュメントタイプをカバーしています。このモデルはQwen（Qwenで構築）からの合成データを使用して改善されました。コーパスは、法律、数学、科学、金融などの分野にまたがります。また、モデルの精度を向上させるために、質問応答やアライメントスタイルのデータの一部も含まれています。

トレーニング & テストデータセットのデータ収集方法: ハイブリッド: 自動化、人間、合成

トレーニング & テストデータセットのデータラベリング: ハイブリッド: 自動化、人間、合成

評価データセット

Nemotron-H-56B-Base-8Kベースの評価には、次のセクションでリストされているデータセットを使用しました。

評価データセットのデータ収集方法: ハイブリッド: 人間、合成

評価データセットのデータラベリング方法: ハイブリッド: 人間、合成、自動

常識理解評価:

ARC Challenge 25-shot	Hellaswag 10-shot	Winogrande 5-shot	CommonsenseQA 7-shot
94.97	89.00	84.45	86.73

ARC (Ai2 reasoning challenge)-Challenge - 言語モデルの質問応答能力を評価するための小学校レベルの多肢選択科学問題を含むベンチマークからの問題セット。データセット
Hellaswag - 言語モデルが提供されたコンテキストを正しく完了できるかをテスト。データセット
Winogrande - 常識的推論を必要とする文に対して正しい選択肢を選ぶ能力をテスト。データセット
CommonsenseQA - さまざまな種類の常識的知識を必要とする多肢選択質問応答データセット。データセット

コーディング評価:

MBPP (sanitized) 3-shot	MBPP+ 0-shot	HumanEval 0-shot	HumanEval+ 0-shot
77.82	67.20	60.37	54.27

MBPP (Mostly Basic Python Programming Problems) - Pythonプログラミングタスクに対する解決策を生成する能力を評価。データセット
MBPP+ - MBPPの拡張版で、追加の検証を含む。データセット
HumanEval - Pythonでのコード生成と完了能力をテスト。データセット

数学評価:

GSM8K 8-shot CoT	MATH 4-shot CoT	MATH-Lvl 5 4-shot CoT	MATH-500 4-shot CoT
93.71	59.42	35.19	57.37

GSM8K (Grade School Math 8K) - 小学校レベルの数学文章問題解決能力を評価。データセット
MATH - 複数の難易度レベルとさまざまな科目（初等代数、代数、数論、確率論、幾何学、中級代数、微積分前準備）にわたる数学的能力をテスト。データセット
MATH Lvl 5 - MATHデータセットから最も難しい問題のみを抽出。データセット
MATH-500 - 代数、幾何学、微積分にわたる高度な数学的問題解決能力をテスト。データセット

一般評価:

MMLU-Pro 5-shot CoT	MMLU 5-shot
60.51	84.21

MMLU Pro - 14の多様なドメインにわたる挑戦的で推論に焦点を当てた質問を通じて、言語理解モデルを評価。データセット
MMLU - 科学、人文科学、数学など57の科目にわたる知識をテスト。データセット

使用における潜在的な既知リスク

このモデルは、インターネットからクロールされた有毒な言語、安全でないコンテンツ、社会的バイアスを含むデータでトレーニングされています。そのため、特に有毒なプロンプトが与えられた場合、モデルはこれらのバイアスを増幅し、有毒な応答を返す可能性があります。モデルは、明示的に攻撃的でないプロンプトであっても、不正確な回答を生成したり、重要な情報を省略したり、社会的に受け入れられないまたは望ましくないテキストを含む無関係または冗長なテキストを生成する可能性があります。

このモデルは、Base16、Hex/ASCII、点字などのいくつかのエンコーディングを介した間接的なプロンプトインジェクションに対して弱点を示しますが、より一般的なBase64ベクトルを使用したインジェクションに対しては他の類似モデルよりも耐性があります。

推論

エンジン: NeMo
テストハードウェア NVIDIA H100-80GB

倫理的考慮事項

NVIDIAは、信頼できるAIは共有された責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。当社の利用規約に従ってダウンロードまたは使用する場合、開発者は内部モデルチームと協力して、このモデルが関連業界と使用ケースの要件を満たし、予期しない製品の誤用に対処していることを確認する必要があります。

このモデルに関する倫理的考慮事項の詳細については、http://nvidia.com/nemotron-responsible-useで入手可能な責任ある使用ガイドをご覧ください。

セキュリティの脆弱性やNVIDIA AIに関する懸念はこちらから報告してください。