M

Minitron 8B Base

由nvidia開發
Minitron-8B-Base是通過剪裁Nemotron-4 15B獲得的大型語言模型,採用蒸餾持續訓練方法,相比從頭訓練節省了40倍的訓練token和1.8倍的計算成本。
下載量 5,725
發布時間 : 7/19/2024

模型概述

Minitron-8B-Base是一個高效的大型語言模型,通過剪裁和蒸餾技術從Nemotron-4 15B模型衍生而來,主要用於文本生成任務。

模型特點

高效訓練
相比從頭訓練,節省了40倍的訓練token和1.8倍的計算成本。
高性能
在MMLU分數上表現出高達16%的提升,性能與Mistral 7B、Gemma 7B和Llama-3 8B等社區模型相當。
先進架構
採用分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)等先進技術。

模型能力

文本生成
語言理解
代碼生成

使用案例

自然語言處理
文本補全
根據給定的文本提示生成連貫的後續文本。
生成流暢且語義連貫的文本。
問答系統
回答用戶提出的問題。
提供準確且相關的答案。
代碼生成
代碼補全
根據給定的代碼片段生成後續代碼。
生成功能正確的代碼片段。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase