🚀 LLaMA模型
LLaMA-7B 已转换为可与 Transformers/HuggingFace 配合使用。此模型遵循特殊许可协议,详情请参阅 LICENSE 文件。
🚀 快速开始
本部分暂未提供相关内容,若有需要可进一步补充。
✨ 主要特性
- 模型转换:将 LLaMA-7B 转换为可与 Transformers/HuggingFace 协同工作的形式。
- 多用途研究:主要用于大语言模型的研究,如探索问答、自然语言理解等潜在应用。
📚 详细文档
模型详情
- 开发组织:Meta AI 的 FAIR 团队。
- 模型日期:LLaMA 于 2022 年 12 月至 2023 年 2 月期间进行训练。
- 模型版本:此为模型的第 1 版。
- 模型类型:LLaMA 是基于 Transformer 架构的自回归语言模型,有 7B、13B、33B 和 65B 参数等不同规模。
- 更多信息资源:更多信息可在论文 “LLaMA, Open and Efficient Foundation Language Models” 中找到,论文链接为 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/。
- 引用详情:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
- 许可证:非商业定制许可证。
- 问题反馈途径:有关 LLaMA 的问题和建议可通过项目的 GitHub 仓库 提交 issue。
预期用途
- 主要预期用途:LLaMA 主要用于大语言模型的研究,包括探索问答、自然语言理解或阅读理解等潜在应用;了解当前语言模型的能力和局限性,并开发改进技术;评估和减轻偏见、风险、有毒有害内容生成以及幻觉等问题。
- 主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
- 超出范围的用例:LLaMA 是基础模型,在未进行进一步风险评估和缓解的情况下,不应直接用于下游应用。特别是,该模型未经过人类反馈训练,可能会生成有毒或冒犯性内容、错误信息或无用答案。
影响因素
- 相关因素:影响模型性能的一个重要因素是使用的语言。尽管训练数据包含 20 种语言,但大部分数据集是英文文本,因此预计模型在英文上的表现会优于其他语言。此外,先前研究表明不同方言也可能影响模型性能,预计本模型也会如此。
- 评估因素:由于模型在网络数据上进行训练,预计会反映出该数据源的偏见。因此,在 RAI 数据集上对模型进行评估,以衡量其在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏见。同时,根据提示模型的上下文毒性,测量模型生成内容的毒性。
评估指标
- 模型性能指标:使用以下指标评估模型:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender 和 CrowS-Pairs 的准确率。
- 问答的精确匹配率。
- RealToxicityPrompts 上 Perspective API 的毒性得分。
- 决策阈值:不适用。
- 不确定性和可变性处理方法:由于训练大语言模型的计算要求较高,每种规模仅训练了一个模型,因此无法评估预训练的可变性。
评估数据集
模型在以下基准测试中进行评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据集
模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia 和 Books 领域的数据包含以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息,请参阅论文。
定量分析
模型架构超参数
LLaMA参数数量 |
维度 |
头数 |
层数 |
学习率 |
批量大小 |
标记数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5.E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5.E-04 |
4M |
1.4T |
表 1 - LLaMA 模型超参数总结
推理任务性能
LLaMA参数数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表 2 - LLaMA 模型在推理任务上的性能总结
偏差评估
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA 平均 |
66.6 |
表 3 - 模型输出偏差总结
伦理考量
- 数据:用于训练模型的数据来自多个来源,主要是网络数据,因此包含冒犯性、有害和有偏见的内容。预计模型会表现出训练数据中的这些偏见。
- 人类生活:该模型不用于为与人类生活密切相关的决策提供信息,也不应以这种方式使用。
- 缓解措施:基于数据与维基百科文本和参考资料的接近程度对网络数据进行过滤,使用了 Kneser-Ney 语言模型和 fastText 线性分类器。
- 风险和危害:大语言模型的风险和危害包括生成有害、冒犯性或有偏见的内容。这些模型通常容易生成错误信息,有时被称为幻觉。预计本模型也不例外。
- 用例:LLaMA 是基础模型,在未进行进一步调查和风险缓解的情况下,不应直接用于下游应用。这些风险和潜在的不良用例包括但不限于生成错误信息和有害、有偏见或冒犯性内容。
📄 许可证
非商业定制许可证,详情请参阅 LICENSE 文件。