Llama-3.1-8B-UltraLong-2M-Instructオープンソース言語モデル - 無料で超長テキストを処理可能、卓越したパフォーマンス

ホーム

Llama 3.1 8B UltraLong 2M Instruct

nvidiaによって開発

Nemotron-UltraLong-8Bシリーズは、超長文シーケンスの処理に特化した言語モデルで、最大200万トークンのコンテキストウィンドウをサポートしながら優れた性能を維持します。

大規模言語モデル

Transformers

英語#超長テキスト処理 #200万トークンコンテキスト #多分野インストラクションチューニング

ダウンロード数 1,088

リリース時間 : 3/4/2025

モデル概要

Llama-3.1アーキテクチャに基づく超長文コンテキスト言語モデルで、効率的な継続事前学習とインストラクションチューニングにより長文理解能力を向上させ、超長文シーケンスを処理する必要があるアプリケーションシナリオに適しています。

モデル特徴

超長文コンテキストサポート

最大200万トークンのコンテキストウィンドウをサポートし、超長文シーケンスを処理できます。

効率的なトレーニング手法

継続事前学習とインストラクションチューニングを組み合わせることで、長文コンテキスト理解能力を大幅に向上させます。

多分野適応性

汎用、数学、コードの各分野で優れたパフォーマンスを発揮し、多様なタスクに適用可能です。

モデル能力

超長文理解

インストラクション追従

テキスト生成

数学的推論

コード生成

使用事例

長文ドキュメント処理

法律文書分析

超長の法律契約や文書を分析し、重要な条項や情報を抽出します。

200万トークン長の文書から正確に理解し、重要な情報を抽出できます。

学術研究

論文要約生成

超長の学術論文を読み、簡潔な要約を生成します。

RULERなどの長文評価ベンチマークで優れたパフォーマンスを示します。

🚀 Nemotron-UltraLong-8B

Nemotron-UltraLong-8Bは、標準的なベンチマークで競争力のある性能を維持しながら、大量のテキストシーケンス（最大1M、2M、および4Mトークン）を処理するように設計された超長文脈言語モデルのシリーズです。Llama-3.1をベースに構築され、効率的な継続事前学習と命令微調整を組み合わせたシステマティックなトレーニング方法を活用して、長文脈理解と命令追従能力を強化しています。このアプローチにより、一般的な性能を犠牲にすることなく、コンテキストウィンドウを効率的に拡大することができます。

🚀 クイックスタート

transformers >= 4.43.0 以降では、Transformersの pipeline 抽象化を使用するか、generate() 関数を持つAutoクラスを活用して、会話推論を実行することができます。

pip install --upgrade transformers を実行して、transformersのインストールを更新してください。

✨ 主な機能

超長文脈のテキストを効率的に処理できる。
標準的なベンチマークでも競争力のある性能を発揮する。
長文脈理解と命令追従能力に優れている。

📦 インストール

pip install --upgrade transformers

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "nvidia/Llama-3.1-Nemotron-8B-UltraLong-2M-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📚 ドキュメント

モデルカード

属性	详情
ベースモデル	meta-llama/Llama-3.1-8B-Instruct
継続事前学習	トレーニングデータは、サンプル長に基づくドメインごとのアップサンプリングを使用して事前学習コーパスから抽出された10億トークンで構成されています。モデルは、シーケンス長2M、グローバルバッチサイズ2で245ステップトレーニングされました。
教師付き微調整 (SFT)	一般、数学、コードの各ドメインのオープンソース命令データセット上の10億トークン。AceMath-Instruct の 'general_sft_stage2' からデータをサブサンプリングしました。
最大コンテキストウィンドウ	200万トークン

評価結果

Nemotron-UltraLong-8Bを、長文脈タスク（例：RULER、LV-Eval、InfiniteBench）や標準タスク（例：MMLU、MATH、GSM-8K、HumanEval）などの多様なベンチマークで評価しています。UltraLong-8Bは、超長文脈タスクで優れた性能を達成し、標準的なベンチマークでも競争力のある結果を維持しています。

ニードルインアハイスタック

長文脈評価

標準能力評価

🔧 技術詳細

ベースモデルとして meta-llama/Llama-3.1-8B-Instruct を使用。
継続事前学習では、1Bトークンのデータを使用し、245ステップトレーニング。
教師付き微調整では、オープンソースの命令データセットを使用。

📄 ライセンス

このモデルは cc-by-nc-4.0 ライセンスの下で提供されています。

対応者

Chejian Xu (chejian2@illinois.edu), Wei Ping (wping@nvidia.com)

引用

@article{ulralong2025,
  title={From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models},
  author={Xu, Chejian and Ping, Wei and Xu, Peng and Liu, Zihan and Wang, Boxin and Shoeybi, Mohammad and Catanzaro, Bryan},
  journal={arXiv preprint},
  year={2025}
 }