🚀 speechless-llama2-orca-platypus-13b
speechless-llama2-orca-platypus-13b 是 AIDC-ai-business/Luban-13B 和 Open-Orca/OpenOrca-Platypus2-13B 的合并模型。它在多个标准学术基准测试中展现出了优秀的性能。
指标 |
数值 |
ARC |
62.54 |
HellaSwag |
82.76 |
MMLU |
59.23 |
TruthfulQA |
54.66 |
平均值 |
64.80 |
🚀 快速开始
本项目主要围绕 speechless-llama2-orca-platypus-13b 模型展开,它基于 Llama 2 架构。若你想使用该模型,需先从 Meta 获得下载权限,再通过 Hugging Face 访问。
✨ 主要特性
Llama 2 特性
- 多参数规模:Llama 2 涵盖了从 70 亿到 700 亿参数规模的预训练和微调生成文本模型。
- 对话优化:微调后的 Llama-2-Chat 模型针对对话用例进行了优化,在多数基准测试中表现优于开源聊天模型,在有用性和安全性的人工评估中,与 ChatGPT 和 PaLM 等流行的闭源模型相当。
- 先进架构:采用优化的 Transformer 架构,微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。
speechless-llama2-orca-platypus-13b 特性
- 模型融合:结合了 AIDC-ai-business/Luban-13B 和 Open-Orca/OpenOrca-Platypus2-13B 的优势。
- 性能优越:在多个基准测试中取得了良好的成绩,如 ARC、HellaSwag 等。
📚 详细文档
模型详情
基本信息
- 模型开发者:Meta
- 模型变体:Llama 2 有 7B、13B 和 70B 等不同参数规模,以及预训练和微调版本。
- 输入输出:模型仅接受文本输入,并生成文本输出。
- 模型架构:Llama 2 是自回归语言模型,采用优化的 Transformer 架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
训练信息
训练数据详情
- 数据概述:预训练数据有 2 万亿个标记,来自公开数据源;微调数据包括公开指令数据集和超 100 万个新的人工标注示例,不包含 Meta 用户数据。
- 数据新鲜度:预训练数据截止到 2022 年 9 月,部分微调数据更新至 2023 年 7 月。
预期用途
预期用例
- 商业和研究:Llama 2 适用于英语的商业和研究用途。
- 对话场景:微调模型适用于类似助手的聊天场景;预训练模型可用于各种自然语言生成任务。
注意事项
若要获得聊天版本的预期特性和性能,需遵循特定格式,包括 INST
和 <<SYS>>
标签、BOS
和 EOS
标记,以及其间的空格和换行符(建议对输入调用 strip()
方法以避免双空格)。详情见 GitHub 参考代码:chat_completion
。
非预期用途
- 任何违反适用法律法规(包括贸易合规法律)的使用方式。
- 使用英语以外的语言。
- 任何违反 Llama 2 可接受使用政策和许可协议的使用方式。
硬件和软件
训练因素
- 预训练使用自定义训练库、Meta 的研究超级集群和生产集群。
- 微调、标注和评估在第三方云计算平台上进行。
碳足迹
预训练使用 A100 - 80GB 类型的硬件,累计计算 330 万 GPU 小时(TDP 为 350 - 400W)。估计总排放量为 539 tCO2eq,100% 由 Meta 的可持续发展计划抵消。
模型 |
时间(GPU 小时) |
功耗(W) |
碳排放(tCO₂eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
总计 |
3311616 |
|
539.00 |
评估结果
标准学术基准测试
模型 |
规模 |
代码 |
常识推理 |
世界知识 |
阅读理解 |
数学 |
MMLU |
BBH |
AGI 评估 |
Llama 1 7B |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 13B |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 33B |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 65B |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 7B |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 13B |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 70B |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
自动安全基准测试
模型 |
TruthfulQA |
Toxigen |
Llama 1 7B |
27.42 |
23.00 |
Llama 1 13B |
41.74 |
23.08 |
Llama 1 33B |
44.19 |
22.57 |
Llama 1 65B |
48.71 |
21.77 |
Llama 2 7B |
33.29 |
21.25 |
Llama 2 13B |
41.86 |
26.10 |
Llama 2 70B |
50.18 |
24.60 |
微调模型安全数据集评估
模型 |
TruthfulQA |
Toxigen |
Llama-2-Chat 7B |
57.04 |
0.00 |
Llama-2-Chat 13B |
62.18 |
0.00 |
Llama-2-Chat 70B |
64.14 |
0.01 |
伦理考量和局限性
Llama 2 是一项新技术,使用时存在风险。目前的测试仅在英语环境下进行,无法涵盖所有场景。因此,与所有大语言模型一样,Llama 2 的潜在输出无法提前预测,模型可能在某些情况下产生不准确、有偏见或其他令人反感的回复。在部署 Llama 2 的任何应用之前,开发者应针对特定应用进行安全测试和调整。
请参阅 负责任使用指南。
问题反馈
若遇到任何软件“漏洞”或模型相关问题,请通过以下方式反馈:
Llama 模型索引
🔧 技术细节
访问 Llama 2
若你已从 Meta 获得访问权限,可通过以下表单在 Hugging Face 上访问 Llama 2。请先访问 Meta 网站 并接受许可条款和可接受使用政策,再提交表单。请求将在 1 - 2 天内处理。
⚠️ 重要提示
你的 Hugging Face 账户电子邮件地址必须与你在 Meta 网站上提供的电子邮件地址匹配,否则请求将不被批准。
表单提交按钮文字:提交
表单字段:我同意与 Meta 共享我的姓名、电子邮件地址和用户名,并确认我已在 Meta 网站上获得下载权限:复选框
模型转换
本项目是 13B 预训练模型的仓库,已转换为 Hugging Face Transformers 格式。其他模型链接可在底部索引中找到。