Llama-3.1-Nemotron-8B-UltraLong-1M-Instructオープンソース大規模モデル - 無料で超長テキストの処理が卓越しています

ホーム

Llama 3.1 Nemotron 8B UltraLong 1M Instruct

nvidiaによって開発

超長文シーケンス（最大100万、200万、400万トークン対応）処理専用に設計された大規模言語モデルで、標準ベンチマークテストでも優れた性能を維持

大規模言語モデル

Transformers

英語#超長文脈理解 #百万トークン処理 #多分野インストラクションチューニング

ダウンロード数 4,025

リリース時間 : 3/4/2025

モデル概要

Llama-3.1アーキテクチャを基盤とした超長文脈言語モデル。効率的な継続事前学習とインストラクションチューニングにより、長文脈理解と指示追従能力を大幅に向上

モデル特徴

超長文脈サポート

最大400万トークンの超長文シーケンス処理能力をサポート

効率的なトレーニング手法

効率的な継続事前学習とインストラクションチューニングを組み合わせ、長文脈理解能力を大幅に向上

性能維持

コンテキストウィンドウ拡張時も汎用性能を損なわない

多様な評価

長文脈タスクと標準ベンチマークテストの両方で卓越した性能

モデル能力

超長文シーケンス処理

指示追従

汎用テキスト生成

数学的推論

コード生成

使用事例

長文書処理

法律文書分析

超長法律契約書や文書の処理・分析

長文書から正確に主要情報を理解・抽出可能

学術論文要約

長編学術論文の要約と主要情報抽出

全文内容に対する一貫した理解を維持

対話システム

長対話記憶

超長対話履歴の記憶と文脈理解をサポート

長対話中でも一貫した応答を維持

🚀 Nemotron-UltraLong-8B

Nemotron-UltraLong-8Bは、大規模なテキストシーケンス（最大1M、2M、4Mトークン）を処理できる超長文脈言語モデルのシリーズです。標準的なベンチマークでも競争力のある性能を維持しています。Llama-3.1をベースに構築され、効率的な継続事前学習と命令微調整を組み合わせたトレーニング方法を用いて、長文脈の理解と命令に従う能力を向上させています。このアプローチにより、一般的な性能を犠牲にすることなく、文脈ウィンドウを効率的に拡大することができます。

🚀 クイックスタート

transformers >= 4.43.0以降を使用すると、Transformersのpipeline抽象化を使用するか、generate()関数を持つAutoクラスを利用して会話推論を実行できます。

pip install --upgrade transformersを実行して、transformersのインストールを更新してください。

import transformers
import torch

model_id = "nvidia/Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

✨ 主な機能

超長文脈対応

Nemotron-UltraLong-8Bは最大4Mトークンの長文脈を処理でき、長文脈タスクで優れた性能を発揮します。

標準タスクでの競争力

標準的なベンチマークタスクでも高い性能を維持しています。

📦 インストール

pip install --upgrade transformersを実行して、transformersのインストールを更新してください。

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "nvidia/Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📚 ドキュメント

モデル情報

属性	详情
ベースモデル	meta-llama/Llama-3.1-8B-Instruct
継続事前学習	トレーニングデータは、サンプル長に基づくドメインごとのアップサンプリングを使用して事前学習コーパスから抽出された1Bトークンで構成されています。モデルは、シーケンス長1M、グローバルバッチサイズ8で125イテレーショントレーニングされました。
教師あり微調整(SFT)	一般、数学、コードのドメインにまたがるオープンソースの命令データセット上の1Bトークン。AceMath-Instructの「general_sft_stage2」からデータをサブサンプリングしました。
最大文脈ウィンドウ	1Mトークン

評価結果

Nemotron-UltraLong-8Bは、長文脈タスク（例：RULER、LV-Eval、InfiniteBench）や標準タスク（例：MMLU、MATH、GSM-8K、HumanEval）などの多様なベンチマークで評価されています。UltraLong-8Bは、超長文脈タスクで優れた性能を達成し、標準的なベンチマークでも競争力のある結果を維持しています。

Needle in a Haystack

長文脈評価

標準能力評価

対応者

Chejian Xu (chejian2@illinois.edu), Wei Ping (wping@nvidia.com)

引用

@article{ulralong2025,
  title={From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models},
  author={Xu, Chejian and Ping, Wei and Xu, Peng and Liu, Zihan and Wang, Boxin and Shoeybi, Mohammad and Catanzaro, Bryan},
  journal={arXiv preprint},
  year={2025}
 }