🚀 Llama 2
Llama 2是一系列预训练和微调的生成式文本模型,参数规模从70亿到700亿不等。此仓库为700亿参数的微调模型,针对对话用例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可在底部索引中找到。
🚀 快速开始
在使用此模型前,请知悉其受Meta许可证的约束。若要下载模型权重和分词器,请先访问Meta官网,接受许可协议,再在此处申请访问权限。
✨ 主要特性
- 参数规模多样:Llama 2有70亿、130亿和700亿等不同参数规模的版本,还有预训练和微调等不同变体。
- 对话优化:微调后的Llama-2-Chat模型针对对话用例进行了优化,在多数测试基准中表现优于开源聊天模型,在人工评估的有用性和安全性方面,与ChatGPT和PaLM等流行的闭源模型相当。
- 架构先进:采用优化的Transformer架构,微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对有用性和安全性的偏好。
📚 详细文档
模型详情
Meta开发并公开发布了Llama 2系列大语言模型(LLM),这是一系列预训练和微调的生成式文本模型,参数规模从70亿到700亿不等。微调后的LLM(Llama-2-Chat)针对对话用例进行了优化。
- 模型开发者:Meta
- 变体:Llama 2有不同的参数规模(7B、13B和70B),以及预训练和微调等变体。
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本输出。
- 模型架构:Llama 2是自回归语言模型,采用优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
训练数据
- 概述:Llama 2在2万亿公开数据令牌上进行预训练,微调数据包括公开指令数据集和超100万条新人工标注示例,预训练和微调数据集均不包含Meta用户数据。
- 数据时效性:预训练数据截止到2022年9月,部分微调数据更新至2023年7月。
评估结果
在标准学术基准测试中,Llama 2在多个维度上表现优于Llama 1。
综合学术基准测试
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI评估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
安全基准测试
模型 |
TruthfulQA |
Toxigen |
Llama 1(7B) |
27.42 |
23.00 |
Llama 1(13B) |
41.74 |
23.08 |
Llama 1(33B) |
44.19 |
22.57 |
Llama 1(65B) |
48.71 |
21.77 |
Llama 2(7B) |
33.29 |
21.25 |
Llama 2(13B) |
41.86 |
26.10 |
Llama 2(70B) |
50.18 |
24.60 |
微调模型安全测试
模型 |
TruthfulQA |
Toxigen |
Llama-2-Chat(7B) |
57.04 |
0.00 |
Llama-2-Chat(13B) |
62.18 |
0.00 |
Llama-2-Chat(70B) |
64.14 |
0.01 |
预期用途
- 预期用例:Llama 2适用于英语的商业和研究用途。微调模型适用于类似助手的聊天场景,预训练模型可用于各种自然语言生成任务。
- 非预期用途:禁止以任何违反适用法律法规(包括贸易合规法律)的方式使用;禁止在英语以外的语言环境中使用;禁止以违反Llama 2可接受使用政策和许可协议的任何其他方式使用。
硬件和软件
- 训练因素:预训练使用了自定义训练库、Meta的研究超级集群和生产集群。微调、标注和评估也在第三方云计算平台上进行。
- 碳足迹:预训练在A100 - 80GB(TDP为350 - 400W)硬件上累计使用了330万个GPU小时的计算资源。估计总排放量为539 tCO2eq,全部由Meta的可持续发展计划抵消。
模型 |
时间(GPU小时) |
功耗(W) |
碳排放(tCO₂eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
🔧 技术细节
- 模型训练:Llama 2在2万亿公开数据令牌上进行预训练,微调数据包括公开指令数据集和超100万条新人工标注示例。
- 架构优化:采用优化的Transformer架构,微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对有用性和安全性的偏好。
📄 许可证
自定义商业许可证可在https://ai.meta.com/resources/models-and-libraries/llama-downloads/获取。
注意事项
伦理考量与局限性
Llama 2是一项新技术,使用时存在风险。目前的测试仅在英语环境中进行,无法涵盖所有场景。因此,与所有大语言模型一样,Llama 2的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的回复。因此,在部署Llama 2的任何应用程序之前,开发人员应针对模型的特定应用进行安全测试和调整。
请参阅负责任使用指南。
问题反馈
请通过以下方式报告软件“漏洞”或模型的其他问题:
Llama模型索引