🚀 Llama-3.1-Storm-8B-GGUF
Llama-3.1-Storm-8B-GGUF 是 Llama-3.1-Storm-8B 的 GGUF 量化版本,可与 llama.cpp 配合使用。BF16 模型可在 此处 获取。

作者:Ashvini Kumar Jindal、Pawan Kumar Rajpoot、Ankur Parikh、Akshita Sukhlecha
🤗 Hugging Face 公告博客:https://huggingface.co/blog/akjindal53244/llama31-storm8b
🐏 Ollama 运行指令:ollama run ajindal/llama3.1-storm:8b
🚀 快速开始
安装依赖
pip install llama-cpp-python
使用示例
from huggingface_hub import hf_hub_download
from llama_cpp import Llama
model_name = "akjindal53244/Llama-3.1-Storm-8B-GGUF"
model_file = "Llama-3.1-Storm-8B.Q8_0.gguf"
model_path = hf_hub_download(model_name, filename=model_file)
llm = Llama(
model_path=model_path,
n_ctx=16000,
n_threads=32,
n_gpu_layers=0
)
generation_kwargs = {
"max_tokens":200,
"stop":["<|eot_id|>"],
"echo":False,
"top_k":1
}
prompt = "What is 2+2?"
res = llm(prompt, **generation_kwargs)
print(res["choices"][0]["text"])
使用 Ollama 进行函数调用的示例
import ollama
tools = [{
'type': 'function',
'function': {
'name': 'get_current_weather',
'description': 'Get the current weather for a city',
'parameters': {
'type': 'object',
'properties': {
'city': {
'type': 'string',
'description': 'The name of the city',
},
},
'required': ['city'],
},
},
},
{
'type': 'function',
'function': {
'name': 'get_places_to_vist',
'description': 'Get places to visit in a city',
'parameters': {
'type': 'object',
'properties': {
'city': {
'type': 'string',
'description': 'The name of the city',
},
},
'required': ['city'],
},
},
},
]
response = ollama.chat(
model='ajindal/llama3.1-storm:8b',
messages=[
{'role': 'system', 'content': 'Do not answer to nay vulgar questions.'},
{'role': 'user', 'content': 'What is the weather in Toronto and San Francisco?'}
],
tools=tools
)
print(response['message'])
✨ 主要特性
模型介绍
Llama-3.1-Storm-8B 基于 Llama-3.1-8B-Instruct 构建,旨在增强 80 亿参数模型类中的对话和函数调用能力。

如上图左子图所示,Llama-3.1-Storm-8B 模型在多个基准测试中改进了 Meta-Llama-3.1-8B-Instruct 的性能,包括指令遵循(IFEval)、知识驱动问答基准测试(GPQA、MMLU-Pro)、推理(ARC-C、MuSR、BBH)、减少幻觉(TruthfulQA)和函数调用(BFCL)。对于使用有限计算资源的 AI 开发者和爱好者来说,这种改进尤为显著。
我们还将我们的模型与最近发布的基于 Llama-3.1-8B-Instruct 模型构建的 Hermes-3-Llama-3.1-8B 进行了基准测试。如上图右子图所示,Llama-3.1-Storm-8B 在 9 个基准测试中的 7 个上优于 Hermes-3-Llama-3.1-8B,Hermes-3-Llama-3.1-8B 在 MuSR 基准测试中超过 Llama-3.1-Storm-8B,并且两个模型在 BBH 基准测试中表现相当。
模型优势
Llama-3.1-Storm-8B 是一个强大的通用模型,适用于各种应用。我们邀请 AI 社区探索 Llama-3.1-Storm-8B,并期待看到它在各种项目和应用中的应用。
模型优势 |
相关基准测试 |
改进的指令遵循能力 |
IFEval 严格模式(+3.93%) |
增强的知识驱动问答能力 |
GPQA(+7.21%)、MMLU-Pro(+0.55%)、AGIEval(+3.77%) |
更好的推理能力 |
ARC-C(+3.92%)、MuSR(+2.77%)、BBH(+1.67%)、AGIEval(+3.77%) |
卓越的代理能力 |
BFCL:总体准确率(+7.92%)、BFCL:AST 摘要(+12.32%) |
减少的幻觉现象 |
TruthfulQA(+9%) |
注意:所有改进都是相对于 Meta-Llama-3.1-8B-Instruct 的绝对增益。
模型版本
BF16
:Llama-3.1-Storm-8B
FP8
:Llama-3.1-Storm-8B-FP8-Dynamic
GGUF
:Llama-3.1-Storm-8B-GGUF
- Ollama:
ollama run ajindal/llama3.1-storm:8b
🔧 技术细节
模型构建步骤
我们的方法包括三个关键步骤:
- 自我筛选:我们应用了两种自我筛选方法,从约 280 万个开源示例中选择了约 100 万个高质量示例。我们的筛选标准侧重于教育价值和难度级别,使用相同的 SLM 进行注释,而不是使用更大的模型(例如 70B、405B)。
- 有针对性的微调:我们在 Llama-3.1-8B-Instruct 模型上进行了基于 Spectrum 的有针对性的微调。Spectrum 方法通过根据层模块的信噪比(SNR)选择性地针对层模块,并冻结其余模块来加速训练。在我们的工作中,50% 的层被冻结。
- 模型合并:我们使用 SLERP 方法将我们微调后的模型与 Llama-Spark 模型合并。合并方法产生一个混合模型,其特征从两个父模型平滑插值,确保所得模型捕捉到两个父模型的精髓。Llama-3.1-Storm-8B 在 10 个不同的基准测试中改进了 Llama-3.1-8B-Instruct 的性能。这些基准测试涵盖了指令遵循、知识驱动问答、推理、真实答案生成和函数调用等领域。
对齐说明
虽然 Llama-3.1-Storm-8B 没有经过明确的模型对齐过程,但它可能仍然保留了一些从 Meta-Llama-3.1-8B-Instruct 模型继承的对齐属性。
📚 详细文档
引用我们的工作
@misc {ashvini_kumar_jindal_2024,
author = { {Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh, Akshita Sukhlecha} },
title = { Llama-3.1-Storm-8B },
year = 2024,
url = { https://huggingface.co/akjindal53244/Llama-3.1-Storm-8B },
doi = { 10.57967/hf/2902 },
publisher = { Hugging Face }
}
支持我们的工作
我们的团队有 3 名成员,分布在 3 个不同的时区,我们赢得了 2023 年 NeurIPS LLM 效率挑战赛 和其他 4 个金融和阿拉伯语 LLM 领域的竞赛。我们还发布了 SOTA 数学推理模型。
Llama-3.1-Storm-8B 是我们到目前为止对开源社区最有价值的贡献。我们致力于开发高效的通用大语言模型。我们正在寻求计算资源和创新的合作者来推动这一计划的发展。
📄 许可证
本项目遵循 llama3.1 许可证。
语言支持
本模型支持以下语言:
- 英语
- 德语
- 法语
- 意大利语
- 葡萄牙语
- 印地语
- 西班牙语
- 泰语
模型类型
文本生成
基础模型
akjindal53244/Llama-3.1-Storm-8B