L

Llama 3.1 405B Instruct FP8

由 nvidia 开发
NVIDIA Llama 3.1 405B Instruct FP8模型是Meta的Llama 3.1 405B Instruct模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。该模型可用于商业或非商业用途。
下载量 10.91k
发布时间 : 8/29/2024

模型简介

该模型是Meta-Llama-3.1-405B-Instruct的FP8量化版本,通过减少磁盘大小和GPU内存需求,在H200上实现了1.7倍的加速。支持TensorRT-LLM和vLLM两种推理引擎。

模型特点

FP8量化优化
通过将权重和激活量化为FP8数据类型,减少了磁盘大小和GPU内存需求,在H200上实现了1.7倍的加速。
多平台支持
支持Tensor(RT)-LLM和vLLM两种推理引擎,支持NVIDIA Blackwell、NVIDIA Hopper和NVIDIA Lovelace等硬件微架构。
商业可用
该模型可用于商业或非商业用途。
高性能
在MMLU、GSM8K (CoT)、ARC Challenge等基准测试中表现优异。

模型能力

文本生成
语言理解
问答系统
内容创作

使用案例

通用文本生成
内容续写
根据给定的文本片段生成连贯的后续内容。
生成流畅、连贯的文本
问答系统
回答用户提出的各种问题。
准确回答各类问题
教育
数学问题解答
解答复杂的数学问题。
在GSM8K (CoT)测试中达到96.2%的准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase