L

Llama 3.1 Nemotron 8B UltraLong 4M Instruct

由nvidia開發
Nemotron-UltraLong-8B是專為處理超長文本序列設計的語言模型,支持最高400萬標記的上下文窗口,同時在標準基準測試中保持卓越性能。
下載量 4,363
發布時間 : 3/4/2025

模型概述

基於Llama-3.1架構的UltraLong-8B採用系統性訓練方案,通過高效持續預訓練與指令微調相結合的方式,顯著提升長文本理解與指令遵循能力。

模型特點

超長上下文支持
支持最高400萬標記的上下文窗口,能夠處理超長文本序列。
高效訓練方案
採用系統性訓練方案,結合持續預訓練與指令微調,提升長文本理解能力。
卓越性能
在長上下文任務和標準基準測試中均表現卓越。

模型能力

超長文本理解
指令遵循
文本生成
數學推理
代碼生成

使用案例

長文本處理
長文檔摘要
對超長文檔進行摘要生成。
長文本問答
在超長文本中進行問答任務。
通用任務
數學推理
解決數學問題。
代碼生成
生成代碼片段。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase