模型简介
模型特点
模型能力
使用案例
🚀 Llama-2-7b-chat-hf GGUF模型
Llama-2-7b-chat-hf GGUF模型是一系列经过优化的生成式文本模型,适用于多种自然语言处理任务。这些模型在不同的硬件条件和应用场景下具有出色的性能表现,能够满足用户多样化的需求。
🚀 快速开始
模型格式选择
选择正确的模型格式取决于您的硬件能力和内存限制。以下是不同模型格式的特点和适用场景:
BF16(Brain Float 16) – 若支持BF16加速则使用
- 这是一种16位浮点格式,专为更快的计算而设计,同时保留了良好的精度。
- 提供与FP32 相似的动态范围,但内存使用更低。
- 建议在您的硬件支持BF16加速时使用(请检查设备规格)。
- 与FP32相比,非常适合在减少内存占用的情况下进行高性能推理。
📌 适用场景: ✔ 您的硬件具有原生BF16支持(例如,较新的GPU、TPU)。 ✔ 您希望在节省内存的同时获得更高的精度。 ✔ 您计划将模型重新量化为其他格式。
📌 不适用场景: ❌ 您的硬件不支持BF16(可能会回退到FP32并运行较慢)。 ❌ 您需要与缺乏BF16优化的旧设备兼容。
F16(Float 16) – 比BF16更广泛支持
- 这是一种16位浮点格式,具有高精度,但取值范围比BF16小。
- 适用于大多数支持FP16加速的设备(包括许多GPU和一些CPU)。
- 数值精度略低于BF16,但通常足以进行推理。
📌 适用场景: ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、内存使用和准确性之间取得平衡。 ✔ 您在GPU或其他针对FP16计算优化的设备上运行。
📌 不适用场景: ❌ 您的设备缺乏原生FP16支持(可能会比预期运行得慢)。 ❌ 您有内存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用于CPU和低VRAM推理
量化可以在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 最适合最小化内存使用,但可能精度较低。
- 高比特模型(Q6_K、Q8_0) → 准确性更高,但需要更多内存。
📌 适用场景: ✔ 您在CPU上运行推理,需要一个优化的模型。 ✔ 您的设备VRAM较低,无法加载全精度模型。 ✔ 您希望在保持合理准确性的同时减少内存占用。
📌 不适用场景: ❌ 您需要最高的准确性(全精度模型更适合此需求)。 ❌ 您的硬件有足够的VRAM来支持更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极端内存效率进行了优化,非常适合低功耗设备或大规模部署,其中内存是关键限制因素。
-
IQ3_XS:超低位量化(3位),具有极高的内存效率。
- 适用场景:最适合超低内存设备,即使Q4_K也可能太大。
- 权衡:与高比特量化相比,准确性较低。
-
IQ3_S:小块大小,以实现最大内存效率。
- 适用场景:最适合低内存设备,其中IQ3_XS可能过于激进。
-
IQ3_M:中等块大小,比IQ3_S具有更好的准确性。
- 适用场景:适用于低内存设备,其中IQ3_S的限制太大。
-
Q4_K:4位量化,具有逐块优化以提高准确性。
- 适用场景:最适合低内存设备,其中Q6_K可能太大。
-
Q4_0:纯4位量化,针对ARM设备进行了优化。
- 适用场景:最适合基于ARM的设备或低内存环境。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 减少内存的高速推理 |
F16 | 高 | 高 | 支持FP16的设备 | 当不支持BF16时的GPU推理 |
Q4_K | 中低 | 低 | CPU或低VRAM设备 | 内存受限环境的最佳选择 |
Q6_K | 中 | 中等 | 内存较多的CPU | 量化模型中较好的准确性 |
Q8_0 | 高 | 中等 | 有足够VRAM的CPU或GPU | 量化模型中最佳的准确性 |
IQ3_XS | 极低 | 极低 | 超低内存设备 | 极端内存效率和低准确性 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可针对ARM设备进行优化 |
包含文件及详情
Llama-2-7b-chat-hf-bf16.gguf
- 模型权重以BF16格式保存。
- 如果您想将模型重新量化为不同的格式,请使用此文件。
- 当您的设备支持BF16加速时效果最佳。
Llama-2-7b-chat-hf-f16.gguf
- 模型权重以F16格式存储。
- 如果您的设备支持FP16,尤其是在不支持BF16的情况下,请使用此文件。
Llama-2-7b-chat-hf-bf16-q8_0.gguf
- 输出和嵌入保持为BF16。
- 所有其他层量化为Q8_0。
- 如果您的设备支持BF16并且您想要一个量化版本,请使用此文件。
Llama-2-7b-chat-hf-f16-q8_0.gguf
- 输出和嵌入保持为F16。
- 所有其他层量化为Q8_0。
Llama-2-7b-chat-hf-q4_k.gguf
- 输出和嵌入量化为Q8_0。
- 所有其他层量化为Q4_K。
- 适合在内存有限的情况下进行CPU推理。
Llama-2-7b-chat-hf-q4_k_s.gguf
- 最小的Q4_K变体,以牺牲准确性为代价使用更少的内存。
- 最适合极低内存设置。
Llama-2-7b-chat-hf-q6_k.gguf
- 输出和嵌入量化为Q8_0。
- 所有其他层量化为Q6_K。
Llama-2-7b-chat-hf-q8_0.gguf
- 完全Q8量化的模型,以获得更好的准确性。
- 需要更多的内存,但提供更高的精度。
Llama-2-7b-chat-hf-iq3_xs.gguf
- IQ3_XS量化,针对极端内存效率进行了优化。
- 最适合超低内存设备。
Llama-2-7b-chat-hf-iq3_m.gguf
- IQ3_M量化,提供中等块大小以提高准确性。
- 适用于低内存设备。
Llama-2-7b-chat-hf-q4_0.gguf
- 纯Q4_0量化,针对ARM设备进行了优化。
- 最适合低内存环境。
- 若追求更高准确性,建议选择IQ4_NL。
✨ 主要特性
模型测试与反馈
如果您发现这些模型有用,请点击点赞 ❤ 。同时,如果您能测试我的网络监控助手,我将不胜感激。您可以点击👉 网络监控助手 进行测试。
💬 点击聊天图标(主页面和仪表盘页面的右下角),选择一个大语言模型(LLM),并在不同的LLM类型(TurboLLM -> FreeLLM -> TestLLM)之间切换。
测试内容
我正在针对我的网络监控服务进行函数调用实验,使用小型开源模型。我关注的问题是“模型可以多小仍能正常工作”。
🟡 TestLLM – 使用llama.cpp在CPU虚拟机的6个线程上运行当前测试模型(加载大约需要15秒。推理速度相当慢,并且一次只能处理一个用户提示,我仍在努力进行扩展!)。如果您感兴趣,我很乐意分享其工作原理。
其他可用的AI助手
🟢 TurboLLM – 使用gpt-4o-mini,速度快!注意:由于OpenAI模型价格昂贵,令牌数量有限,但您可以登录或下载免费的网络监控代理以获取更多令牌,或者使用TestLLM。
🔵 HugLLM – 运行开源的Hugging Face模型,速度快,但运行小型模型(≈8B),因此质量较低。您可以获得2倍的令牌数量(取决于Hugging Face API的可用性)。
📚 详细文档
Llama 2模型概述
Llama 2是一系列预训练和微调的生成式文本模型,参数规模从70亿到700亿不等。本仓库是针对7B微调模型的,该模型针对对话用例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可在底部索引中找到。
模型详情
注意:使用此模型受Meta许可证的约束。要下载模型权重和分词器,请访问网站,并在请求访问之前接受我们的许可证。
Meta开发并公开发布了Llama 2系列大语言模型(LLMs),这是一系列预训练和微调的生成式文本模型,参数规模从70亿到700亿不等。我们的微调LLMs,称为Llama-2-Chat,针对对话用例进行了优化。在我们测试的大多数基准测试中,Llama-2-Chat模型的表现优于开源聊天模型,并且在我们的人工评估中,其在有用性和安全性方面与一些流行的闭源模型(如ChatGPT和PaLM)相当。
属性 | 详情 |
---|---|
模型开发者 | Meta |
变体 | Llama 2有多种参数规模 — 7B、13B和70B — 以及预训练和微调的变体。 |
输入 | 模型仅接受文本输入。 |
输出 | 模型仅生成文本输出。 |
模型架构 | Llama 2是一种自回归语言模型,使用了优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。 |
训练数据 | Llama 2在2万亿个公开可用来源的令牌上进行了预训练。微调数据包括公开可用的指令数据集,以及超过100万个新的人工标注示例。预训练和微调数据集均不包含Meta用户数据。 |
模型日期 | Llama 2于2023年1月至2023年7月期间进行训练。 |
状态 | 这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布微调模型的新版本。 |
许可证 | 可在此处获取自定义商业许可证。 |
研究论文 | "Llama-2: Open Foundation and Fine-tuned Chat Models" |
训练数据详情
模型 | 参数 | 代码 | 常识推理 | 世界知识 | 阅读理解 | 数学 | MMLU | BBH | AGI评估 |
---|---|---|---|---|---|---|---|---|---|
Llama 1 7B | 70亿 | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 13B | 130亿 | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 33B | 330亿 | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 65B | 650亿 | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 7B | 70亿 | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 13B | 130亿 | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 70B | 700亿 | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
评估结果详情
标准学术基准测试结果
模型 | 大小 | 代码 | 常识推理 | 世界知识 | 阅读理解 | 数学 | MMLU | BBH | AGI评估 |
---|---|---|---|---|---|---|---|---|---|
Llama 1 7B | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 13B | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 33B | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 65B | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 7B | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 13B | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 70B | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
自动安全基准测试结果
真实问答(TruthfulQA) | 毒性生成(Toxigen) | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
微调LLMs在不同安全数据集上的评估结果
真实问答(TruthfulQA) | 毒性生成(Toxigen) | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
预期用途
预期用例
Llama 2旨在用于英语的商业和研究用途。微调模型适用于类似助手的聊天场景,而预训练模型可用于多种自然语言生成任务。
为了获得聊天版本的预期功能和性能,需要遵循特定的格式,包括INST
和<<SYS>>
标签、BOS
和EOS
令牌,以及它们之间的空格和换行符(我们建议对输入调用strip()
以避免双空格)。有关详细信息,请参阅github上的参考代码:chat_completion
。
超出范围的用途
- 以任何违反适用法律法规(包括贸易合规法律)的方式使用。
- 在英语以外的语言中使用。
- 以任何违反Llama 2可接受使用政策和许可协议的方式使用。
硬件和软件
训练因素
我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算平台上进行。
碳足迹
预训练在A100 - 80GB类型的硬件上累计使用了330万个GPU小时的计算资源(TDP为350 - 400W)。估计总排放量为539 tCO2eq,其中100%由Meta的可持续发展计划进行了抵消。
模型 | 时间(GPU小时) | 功耗(W) | 碳排放(tCO₂eq) |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
总计 | 3311616 | 539.00 |
训练数据
概述
Llama 2在2万亿个公开可用来源的令牌上进行了预训练。微调数据包括公开可用的指令数据集,以及超过100万个新的人工标注示例。预训练和微调数据集均不包含Meta用户数据。
数据新鲜度
预训练数据的截止日期为2022年9月,但一些微调数据更新至2023年7月。
🔧 技术细节
模型架构
Llama 2是一种自回归语言模型,使用了优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。
训练过程
- 预训练:在2万亿个公开可用来源的令牌上进行预训练。
- 微调:使用公开可用的指令数据集和超过100万个新的人工标注示例进行微调。
评估方法
在标准学术基准测试中,使用内部评估库对Llama 1和Llama 2模型进行评估,包括代码、常识推理、世界知识、阅读理解、数学、MMLU、BBH和AGI评估等方面。同时,在自动安全基准测试(TruthfulQA和Toxigen)和微调LLMs的不同安全数据集上进行评估。
📄 许可证
使用此模型受Meta许可证的约束。要下载模型权重和分词器,请访问网站,并在请求访问之前接受我们的许可证。
Llama 2社区许可协议
通过点击下面的“我接受”,或使用或分发Llama材料的任何部分或元素,即表示您同意受本协议的约束。协议主要内容如下:
- 许可权利和再分发:授予您在Llama材料中Meta拥有的知识产权或其他权利下的非排他性、全球性、不可转让和免版税的有限许可,以使用、复制、分发、复制、创建衍生作品并对Llama材料进行修改。
- 额外商业条款:如果在Llama 2版本发布日期,被许可人或其关联公司提供的产品或服务的月活跃用户在前一个日历月超过7亿,则必须向Meta请求许可。
- 免责声明:除非适用法律要求,否则Llama材料及其任何输出和结果按“原样”提供,不提供任何形式的保证。
- 责任限制:在任何情况下,Meta或其关联公司均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任。
- 知识产权:本协议未授予商标许可,对于您制作的Llama材料的任何衍生作品和修改,您是其所有者。
- 期限和终止:本协议自您接受本协议或访问Llama材料时开始,直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件,Meta可终止本协议。
- 适用法律和管辖权:本协议受加利福尼亚州法律管辖,加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
Llama 2可接受使用政策
Meta致力于促进其工具和功能(包括Llama 2)的安全和公平使用。如果您访问或使用Llama 2,则同意本可接受使用政策。最新版本的政策可在ai.meta.com/llama/use-policy找到。
禁止使用情况
- 违反法律或他人权利:包括从事、促进、生成、鼓励、计划、煽动或助长非法或违法活动或内容,如暴力或恐怖主义、对儿童的剥削或伤害、人口贩运、非法向未成年人分发信息或材料等。
- 从事危险活动:包括从事、促进、煽动、便利或协助规划或开展对个人生命或身体造成伤害风险的活动,如军事、战争、核工业或应用、枪支和非法武器、非法药物等。
- 故意欺骗或误导他人:包括生成、促进或助长欺诈、虚假信息、诽谤性内容、垃圾邮件等。
- 未适当披露风险:未能向最终用户适当披露您的AI系统的任何已知危险。
报告问题
请通过以下方式报告任何软件“漏洞”或其他模型问题:
- 报告模型问题:github.com/facebookresearch/llama
- 报告模型生成的有问题内容:developers.facebook.com/llama_output_feedback
- 报告漏洞和安全问题:facebook.com/whitehat/info
Llama模型索引
模型 | Llama2 | Llama2 - hf | Llama2 - chat | Llama2 - chat - hf |
---|---|---|---|---|
7B | 链接 | 链接 | 链接 | 链接 |
13B | 链接 | 链接 | 链接 | 链接 |
70B | 链接 | 链接 | 链接 | 链接 |
⚠️ 重要提示
Llama 2是一项新技术,使用时存在风险。到目前为止进行的测试均为英文,且无法涵盖所有场景。因此,与所有大语言模型一样,Llama 2的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发人员应针对其特定应用对模型进行安全测试和调整。
请参阅负责任使用指南获取更多信息。
💡 使用建议
在选择模型格式时,请根据您的硬件能力和内存限制进行选择,以确保获得最佳的性能和效果。同时,遵循Llama 2的可接受使用政策和许可协议,避免超出范围的使用。在使用聊天版本时,注意遵循特定的格式要求,以获得预期的功能和性能。



