L

Llama 3.1 405B Instruct FP8

由nvidia開發
NVIDIA Llama 3.1 405B Instruct FP8模型是Meta的Llama 3.1 405B Instruct模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。該模型可用於商業或非商業用途。
下載量 10.91k
發布時間 : 8/29/2024

模型概述

該模型是Meta-Llama-3.1-405B-Instruct的FP8量化版本,通過減少磁盤大小和GPU內存需求,在H200上實現了1.7倍的加速。支持TensorRT-LLM和vLLM兩種推理引擎。

模型特點

FP8量化優化
通過將權重和激活量化為FP8數據類型,減少了磁盤大小和GPU內存需求,在H200上實現了1.7倍的加速。
多平臺支持
支持Tensor(RT)-LLM和vLLM兩種推理引擎,支持NVIDIA Blackwell、NVIDIA Hopper和NVIDIA Lovelace等硬件微架構。
商業可用
該模型可用於商業或非商業用途。
高性能
在MMLU、GSM8K (CoT)、ARC Challenge等基準測試中表現優異。

模型能力

文本生成
語言理解
問答系統
內容創作

使用案例

通用文本生成
內容續寫
根據給定的文本片段生成連貫的後續內容。
生成流暢、連貫的文本
問答系統
回答用戶提出的各種問題。
準確回答各類問題
教育
數學問題解答
解答覆雜的數學問題。
在GSM8K (CoT)測試中達到96.2%的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase