🚀 LLaMA模型
LLaMA是基于Transformer架构的自回归语言模型,可用于大语言模型研究,如探索问答、自然语言理解等潜在应用,也可用于评估和缓解偏见等。本仓库包含LLaMA - 7b模型的权重,该模型遵循非商业定制许可。
🚀 快速开始
2023年4月8日,LLaMA - 7B被转换为可与git head Transformers/HuggingFace配合使用的版本,此版本应能解决EOS令牌问题。此模型遵循特殊许可,请查看LICENSE
文件了解详细信息。
若你已通过填写此表单获得该模型的访问权限,但丢失了权重副本或在将其转换为Transformers格式时遇到问题,可使用此仓库。
✨ 主要特性
- 多参数规模:模型有不同的大小,参数规模包括7B、13B、33B和65B。
- 研究导向:主要用于大语言模型的研究,包括探索潜在应用、理解当前语言模型的能力和局限性等。
📚 详细文档
模型详情
属性 |
详情 |
开发组织 |
Meta AI的FAIR团队 |
模型日期 |
2022年12月至2023年2月训练 |
模型版本 |
版本1 |
模型类型 |
基于Transformer架构的自回归语言模型,有7B、13B、33B和65B参数规模 |
更多信息资源 |
可在论文 “LLaMA, Open and Efficient Foundation Language Models” 中找到更多信息,论文链接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
引用详情 |
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
许可证 |
非商业定制许可 |
问题反馈途径 |
可通过项目的GitHub仓库 提交问题来发送关于LLaMA的问题和评论 |
预期用途
主要预期用途
LLaMA的主要用途是进行大语言模型的研究,包括:
- 探索潜在应用,如问答、自然语言理解或阅读理解。
- 理解当前语言模型的能力和局限性,并开发改进技术。
- 评估和缓解偏见、风险、有害内容生成和幻觉问题。
主要预期用户
该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
超出范围的用例
LLaMA是一个基础模型,因此在没有进一步风险评估和缓解的情况下,不应将其用于下游应用。特别是,该模型没有经过人类反馈训练,因此可能会生成有害、冒犯性内容、错误信息或通常无用的答案。
影响因素
相关因素
模型性能可能会因使用的语言而有所不同。尽管训练数据中包含20种语言,但大部分数据集是英文文本,因此预计模型在英文上的表现会优于其他语言。相关地,先前的研究表明,不同方言的性能可能会有所不同,预计该模型也会如此。
评估因素
由于模型是在网络数据上训练的,预计它会反映出该来源的偏见。因此,在RAI数据集上进行了评估,以衡量模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面表现出的偏见。还根据用于提示模型的上下文的毒性来衡量模型生成内容的毒性。
评估指标
模型性能衡量指标
使用以下指标来评估模型:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG - bench hard、WinoGender和CrowS - Pairs的准确率。
- 问答的完全匹配率。
- RealToxicityPrompts上来自Perspective API的毒性得分。
决策阈值
不适用。
不确定性和可变性处理方法
由于训练大语言模型的计算要求很高,每种大小只训练了一个模型,因此无法评估预训练的可变性。
评估数据集
模型在以下基准测试中进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG - bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS - Pairs。
训练数据集
模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia和Books领域的数据包括以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息,请参阅论文。
定量分析
模型架构超参数
LLaMA参数数量 |
维度 |
头数 |
层数 |
学习率 |
批量大小 |
令牌数 |
7B |
4096 |
32 |
32 |
3.0E - 04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E - 04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5.E - 04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5.E - 04 |
4M |
1.4T |
表1 - LLama模型超参数总结
推理任务性能
LLaMA参数数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC - e |
ARC - c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表2 - LLama模型在推理任务上的性能总结
模型输出偏见总结
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均 |
66.6 |
表3 - 模型输出的偏见总结
伦理考量
数据
用于训练模型的数据来自各种来源,主要来自网络。因此,它包含冒犯性、有害和有偏见的内容。因此,预计模型会表现出训练数据中的此类偏见。
人类生活
该模型并非用于为与人类生活核心相关的决策提供信息,也不应以这种方式使用。
缓解措施
根据数据与维基百科文本和参考文献的接近程度对网络数据进行了过滤。为此,使用了Kneser - Ney语言模型和fastText线性分类器。
风险和危害
大语言模型的风险和危害包括生成有害、冒犯性或有偏见的内容。这些模型通常容易生成错误信息,有时被称为幻觉。预计该模型在这方面也不例外。
使用案例
LLaMA是一个基础模型,因此在没有进一步调查和缓解风险的情况下,不应将其用于下游应用。这些风险和潜在的不良用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性内容。
🔧 技术细节
模型基于Transformer架构构建,是自回归语言模型,通过在多种数据源上训练学习语言模式。训练过程中使用了特定的超参数,如不同参数规模对应的维度、头数、层数等。评估时使用了多种基准测试和指标来衡量模型的性能和偏见情况。
📄 许可证
该模型遵循非商业定制许可,具体详情请查看LICENSE
文件。
⚠️ 重要提示
LLaMA是基础模型,在没有进一步风险评估和缓解的情况下,不应将其用于下游应用,因为它可能会生成有害、冒犯性内容、错误信息或通常无用的答案。
💡 使用建议
若要使用该模型进行研究,建议在多种语言和场景下进行测试,以充分了解其性能和局限性。同时,在使用过程中注意评估和缓解可能出现的偏见和风险。