L

Llama 3 1 Nemotron Ultra 253B CPT V1

nvidiaによって開発
Llama-3.1-Nemotron-Ultra-253B-CPT-v1はMeta Llama-3.1-405B-Instructを基盤とした大規模言語モデルで、128Kトークンのコンテキスト長をサポートし、ニューラルアーキテクチャサーチによる最適化により、精度と効率性の良好なバランスを実現しています。
ダウンロード数 155
リリース時間 : 4/8/2025

モデル概要

このモデルはLlama-3.1-405B-Instructの派生バージョンで、ニューラルアーキテクチャサーチと継続事前学習による最適化が施されており、英語とプログラミング言語のテキスト生成タスクに適しています。

モデル特徴

効率的推論
ニューラルアーキテクチャサーチによりメモリ使用量を最適化し、単一の8xH100ノードで推論可能で、運用コストを削減します。
長文コンテキストサポート
128Kトークンのコンテキスト長をサポートし、長文ドキュメントや複雑なタスクの処理に適しています。
垂直圧縮最適化
新しい垂直圧縮手法を採用し、モデルのレイテンシを大幅に改善します。
継続事前学習
650億トークンの知識蒸留と880億トークンの継続事前学習を経て、モデル性能を向上させています。

モデル能力

テキスト生成
長文処理
プログラミング言語理解

使用事例

基盤モデル
ドメイン適応
基盤モデルとして、特定のドメインやアプリケーションシナリオに微調整して適応可能です。
研究と応用
言語理解と生成
質問応答、要約、対話システムなどの自然言語処理タスクに使用されます。
コード生成と理解
コード補完や説明などのプログラミング言語関連タスクをサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase