模型简介
模型特点
模型能力
使用案例
🚀 Llama 3 70B - FP8
本项目是由FriendliAI将Llama 3 70B模型量化为FP8的版本,在显著提升推理效率的同时,还能保持较高的准确性。需要注意的是,FP8仅支持NVIDIA Ada、Hopper和Blackwell GPU架构。更多详细信息请查看FriendliAI文档。
🚀 快速开始
环境准备
- 注册Friendli Suite,你可以免费使用Friendli容器四周。
- 按照此指南准备个人访问令牌(PAT)。
- 按照此指南准备Friendli容器密钥。
准备个人访问令牌
个人访问令牌(PAT)是用于登录容器注册表的用户凭证。
- 登录Friendli Suite。
- 进入**用户设置 > 令牌,点击“创建新令牌”**。
- 保存创建的令牌值。
准备容器密钥
容器密钥是启动Friendli容器镜像的凭证,你需要将其作为环境变量传递以运行容器镜像。
- 登录Friendli Suite。
- 进入容器 > 容器密钥,点击**“创建密钥”**。
- 保存创建的密钥值。
拉取Friendli容器镜像
- 使用按照此指南创建的个人访问令牌登录Docker客户端。
export FRIENDLI_PAT="YOUR PAT"
docker login registry.friendli.ai -u $YOUR_EMAIL -p $FRIENDLI_PAT
- 拉取镜像
docker pull registry.friendli.ai/trial
运行Friendli容器
准备好Friendli容器镜像后,你可以启动它来创建服务端点。
docker run \
--gpus '"device=0,1"' \
-p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-e FRIENDLI_CONTAINER_SECRET="YOUR CONTAINER SECRET" \
registry.friendli.ai/trial \
--web-server-port 8000 \
--hf-model-name FriendliAI/Meta-Llama-3-70B-fp8 \
--num-devices 2 # 使用张量并行度2
✨ 主要特性
- 推理效率提升:通过将Llama 3 70B模型量化为FP8,显著提升了推理效率。
- 准确性保持:在提升推理效率的同时,保持了较高的准确性。
- 兼容性良好:该模型与**Friendli Container**兼容。
📦 安装指南
准备工作
- 注册Friendli Suite。
- 准备个人访问令牌(PAT)。
- 准备Friendli容器密钥。
拉取镜像
export FRIENDLI_PAT="YOUR PAT"
docker login registry.friendli.ai -u $YOUR_EMAIL -p $FRIENDLI_PAT
docker pull registry.friendli.ai/trial
运行容器
docker run \
--gpus '"device=0,1"' \
-p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-e FRIENDLI_CONTAINER_SECRET="YOUR CONTAINER SECRET" \
registry.friendli.ai/trial \
--web-server-port 8000 \
--hf-model-name FriendliAI/Meta-Llama-3-70B-fp8 \
--num-devices 2 # 使用张量并行度2
💻 使用示例
使用transformers库
>>> import transformers
>>> import torch
>>> model_id = "meta-llama/Meta-Llama-3-70B"
>>> pipeline = transformers.pipeline(
"text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
)
>>> pipeline("Hey how are you doing today?")
使用llama3
代码库
请按照仓库中的说明进行操作。
下载原始检查点,可使用以下huggingface-cli
命令示例:
huggingface-cli download meta-llama/Meta-Llama-3-70B --include "original/*" --local-dir Meta-Llama-3-70B
对于Hugging Face支持,建议使用transformers或TGI,但类似的命令也适用。
📚 详细文档
模型详情
Meta开发并发布了Meta Llama 3系列大语言模型(LLMs),这是一组预训练和指令微调的生成式文本模型,有8B和70B两种参数规模。Llama 3指令微调模型针对对话用例进行了优化,在常见行业基准测试中表现优于许多现有的开源聊天模型。此外,在开发这些模型时,我们非常注重优化其有用性和安全性。
属性 | 详情 |
---|---|
模型开发者 | Meta |
变体 | Llama 3有8B和70B两种参数规模,包括预训练和指令微调两种变体。 |
输入 | 模型仅接受文本输入。 |
输出 | 模型仅生成文本和代码。 |
模型架构 | Llama 3是一种自回归语言模型,采用了优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。 |
训练数据 | 新的公开在线数据混合。 |
上下文长度 | 8k |
GQA | 是 |
令牌计数 | 15T+ |
知识截止日期 | 8B:2023年3月;70B:2023年12月 |
预期用途
- 预期用例:Llama 3旨在用于英语的商业和研究用途。指令微调模型适用于类似助手的聊天,而预训练模型可用于各种自然语言生成任务。
- 超出范围:以任何违反适用法律法规(包括贸易合规法律)的方式使用;以《可接受使用政策》和《Llama 3社区许可协议》禁止的任何其他方式使用;使用英语以外的语言。
⚠️ 重要提示
开发者可以对Llama 3模型进行微调以支持英语以外的语言,但前提是他们必须遵守《Llama 3社区许可协议》和《可接受使用政策》。
硬件和软件
- 训练因素:我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算上进行。
- 碳足迹:预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了770万个GPU小时的计算资源。估计总排放量为2290 tCO2eq,其中100%由Meta的可持续发展计划抵消。
模型 | 时间(GPU小时) | 功耗(W) | 碳排放(tCO2eq) |
---|---|---|---|
Llama 3 8B | 130万 | 700 | 390 |
Llama 3 70B | 640万 | 700 | 1900 |
总计 | 770万 | - | 2290 |
训练数据
Llama 3在超过15万亿个公开可用来源的令牌数据上进行了预训练。微调数据包括公开可用的指令数据集,以及超过1000万个经过人工标注的示例。预训练和微调数据集均不包含Meta用户数据。预训练数据的截止日期分别为8B模型2023年3月和70B模型2023年12月。
基准测试
在本节中,我们报告了Llama 3模型在标准自动基准测试中的结果。所有评估均使用我们的内部评估库。有关方法的详细信息,请参阅此处。
基础预训练模型
类别 | 基准测试 | Llama 3 8B | Llama2 7B | Llama2 13B | Llama 3 70B | Llama2 70B |
---|---|---|---|---|---|---|
通用 | MMLU (5-shot) | 66.6 | 45.7 | 53.8 | 79.5 | 69.7 |
通用 | AGIEval English (3 - 5 shot) | 45.9 | 28.8 | 38.7 | 63.0 | 54.8 |
通用 | CommonSenseQA (7-shot) | 72.6 | 57.6 | 67.6 | 83.8 | 78.7 |
通用 | Winogrande (5-shot) | 76.1 | 73.3 | 75.4 | 83.1 | 81.8 |
通用 | BIG - Bench Hard (3-shot, CoT) | 61.1 | 38.1 | 47.0 | 81.3 | 65.7 |
通用 | ARC - Challenge (25-shot) | 78.6 | 53.7 | 67.6 | 93.0 | 85.3 |
知识推理 | TriviaQA - Wiki (5-shot) | 78.5 | 72.1 | 79.6 | 89.7 | 87.5 |
阅读理解 | SQuAD (1-shot) | 76.4 | 72.2 | 72.1 | 85.6 | 82.6 |
阅读理解 | QuAC (1-shot, F1) | 44.4 | 39.6 | 44.9 | 51.1 | 49.4 |
阅读理解 | BoolQ (0-shot) | 75.7 | 65.5 | 66.9 | 79.0 | 73.1 |
阅读理解 | DROP (3-shot, F1) | 58.4 | 37.9 | 49.8 | 79.7 | 70.2 |
指令微调模型
基准测试 | Llama 3 8B | Llama 2 7B | Llama 2 13B | Llama 3 70B | Llama 2 70B |
---|---|---|---|---|---|
MMLU (5-shot) | 68.4 | 34.1 | 47.8 | 82.0 | 52.9 |
GPQA (0-shot) | 34.2 | 21.7 | 22.3 | 39.5 | 21.0 |
HumanEval (0-shot) | 62.2 | 7.9 | 14.0 | 81.7 | 25.6 |
GSM - 8K (8-shot, CoT) | 79.6 | 25.7 | 77.4 | 93.0 | 57.5 |
MATH (4-shot, CoT) | 30.0 | 3.8 | 6.7 | 50.4 | 11.6 |
责任与安全
我们认为,开放的AI方法能够带来更好、更安全的产品,加速创新,并扩大整体市场。我们致力于负责任地开发AI,并采取了一系列措施来限制滥用和危害,支持开源社区。 基础模型是功能广泛的技术,旨在用于各种不同的应用。它们并非为满足所有开发者在所有用例中的安全级别偏好而设计,因为这些偏好本质上会因不同应用而有所不同。 相反,负责任的大语言模型应用部署需要在应用开发的整个过程中实施一系列安全最佳实践,从模型预训练、微调,到部署包含保障措施的系统,以根据具体用例和受众量身定制安全需求。 作为Llama 3发布的一部分,我们更新了《负责任使用指南》,以概述开发者为其应用实施模型和系统级安全的步骤和最佳实践。我们还提供了一系列资源,包括Meta Llama Guard 2和Code Shield保障措施。这些工具已被证明能够在保持高度有用性的同时,大幅降低大语言模型系统的残余风险。我们鼓励开发者根据自身需求调整和部署这些保障措施,并提供了一个参考实现供你参考。
Llama 3 - Instruct
正如《负责任使用指南》中所述,模型有用性和模型对齐之间可能不可避免地存在一些权衡。开发者应根据具体用例和受众,谨慎权衡对齐和有用性的好处。使用Llama模型时,开发者应注意残余风险,并根据需要利用额外的安全工具,以达到适合其用例的安全标准。
- 安全性:对于我们的指令微调模型,我们进行了广泛的红队测试、对抗性评估,并实施了安全缓解技术,以降低残余风险。与任何大语言模型一样,残余风险可能仍然存在,我们建议开发者根据其用例评估这些风险。同时,我们正在与社区合作,使AI安全基准标准更加透明、严格和可解释。
- 拒绝回答:除了残余风险,我们非常重视模型对良性提示的拒绝回答问题。过度拒绝不仅会影响用户体验,在某些情况下甚至可能有害。我们听取了开发者社区的反馈,并改进了微调过程,以确保Llama 3比Llama 2更不可能错误地拒绝回答提示。我们建立了内部基准并开发了缓解措施,以限制错误拒绝回答的情况,使Llama 3成为我们迄今为止最有用的模型。
负责任的发布
除了上述负责任使用的考虑因素外,我们遵循了严格的流程,在做出发布决定之前,采取了额外的措施来防范滥用和重大风险。
- 滥用:如果你访问或使用Llama 3,你同意遵守《可接受使用政策》。该政策的最新版本可在此处找到。
- 重大风险
- CBRNE(化学、生物、放射、核和高当量爆炸物):我们对模型在这方面的安全性进行了两方面的评估:
- 在模型训练期间进行迭代测试,以评估与CBRNE威胁和其他对抗性风险相关的响应安全性。
- 邀请外部CBRNE专家进行提升测试,评估模型准确提供专家知识并减少潜在CBRNE滥用障碍的能力,参考不使用模型时通过网络搜索所能达到的效果。
- 网络安全:我们使用Meta的网络安全评估套件CyberSecEval对Llama 3进行了评估,测量了Llama 3作为编码助手时建议不安全代码的倾向,以及它响应协助进行网络攻击请求的倾向,其中攻击定义遵循行业标准MITRE ATT&CK网络攻击本体。在不安全编码和网络攻击协助测试中,Llama 3的表现与具有同等编码能力的模型相当或更安全。
- 儿童安全:我们使用专家团队进行了儿童安全风险评估,以评估模型产生可能导致儿童安全风险输出的能力,并通过微调提供必要和适当的风险缓解建议。我们利用这些专家红队测试扩展了评估基准的覆盖范围,在Llama 3模型开发过程中,我们使用基于目标的方法进行了新的深入测试,以评估模型在多个攻击向量下的风险。我们还与内容专家合作进行红队测试,评估潜在违规内容,同时考虑特定市场的细微差别或经验。
- CBRNE(化学、生物、放射、核和高当量爆炸物):我们对模型在这方面的安全性进行了两方面的评估:
社区
生成式AI安全需要专业知识和工具,我们相信开放社区的力量能够加速其发展。我们是开放联盟的积极成员,包括AI Alliance、Partnership in AI和MLCommons,积极为安全标准化和透明度做出贡献。我们鼓励社区采用MLCommons概念验证评估等分类法,以促进安全和内容评估的协作和透明度。我们的Purple Llama工具已开源供社区使用,并广泛分发到包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的GitHub仓库做出贡献。 最后,我们建立了一系列资源,包括输出报告机制和漏洞赏金计划,以在社区的帮助下不断改进Llama技术。
伦理考量和局限性
Llama 3的核心价值观是开放性、包容性和有用性。它旨在为所有人服务,并适用于广泛的用例。因此,它的设计旨在让来自不同背景、经验和观点的人都能使用。Llama 3以用户的实际情况和需求为出发点,不插入不必要的判断或规范性内容,同时认识到即使在某些情况下可能看似有问题的内容,在其他情况下也可能有其价值。它尊重所有用户的尊严和自主权,特别是在推动创新和进步的自由思想和表达价值观方面。 然而,Llama 3是一项新技术,与任何新技术一样,其使用存在风险。到目前为止的测试均使用英语进行,且无法涵盖所有场景。因此,与所有大语言模型一样,Llama 3的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署Llama 3模型的任何应用之前,开发者应针对其特定应用进行安全测试和微调。正如《负责任使用指南》中所述,我们建议将Purple Llama解决方案纳入你的工作流程,特别是Llama Guard,它提供了一个基础模型,用于过滤输入和输出提示,在模型级安全的基础上增加系统级安全。 请参阅《负责任使用指南》。
🔧 技术细节
模型架构
Llama 3是一种自回归语言模型,采用了优化的Transformer架构。微调版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。
训练因素
我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算上进行。
碳足迹
预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了770万个GPU小时的计算资源。估计总排放量为2290 tCO2eq,其中100%由Meta的可持续发展计划抵消。
📄 许可证
请参考原始模型卡片的许可证。本项目遵循Meta Llama 3社区许可协议,详细协议内容如下:
META LLAMA 3社区许可协议
Meta Llama 3版本发布日期:2024年4月18日
“协议”指本协议中规定的使用、复制、分发和修改Llama材料的条款和条件。
“文档”指Meta在https://llama.meta.com/get-started/ 分发的与Meta Llama 3相关的规格、手册和文档。
“被许可方”或“你”指你,或你的雇主,或任何其他人或实体(如果你代表该人或实体签订本协议),且你已达到适用法律、规则或法规要求的提供法律同意的年龄,并且如果你代表雇主或其他人员或实体签订本协议,你具有约束他们的法律权力。
“Meta Llama 3”指Meta在https://llama.meta.com/llama-downloads 分发的基础大语言模型、软件和算法,包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及上述内容的其他元素。
“Llama材料”指根据本协议提供的Meta专有的Meta Llama 3和文档(及其任何部分)的统称。
“Meta”或“我们”指Meta Platforms Ireland Limited(如果你位于欧洲经济区(EEA)或瑞士,或者如果你是一个实体,你的主要营业地位于欧洲经济区或瑞士)和Meta Platforms, Inc.(如果你位于欧洲经济区或瑞士以外)。
- 许可权利和再分发 a. 权利授予。你被授予在Llama材料中体现的Meta知识产权或Meta拥有的其他权利下的非排他性、全球性、不可转让且免版税的有限许可,以使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。 b. 再分发和使用 i. 如果你分发或提供Llama材料(或其任何衍生作品),或使用其中任何材料的产品或服务,包括另一个AI模型,你应(A)随任何此类Llama材料提供本协议的副本;(B)在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Meta Llama 3”。如果你使用Llama材料创建、训练、微调或以其他方式改进一个AI模型,并将其分发或提供使用,你还应在任何此类AI模型名称的开头包含“Llama 3”。 ii. 如果你作为集成终端用户产品的一部分从被许可方处接收Llama材料或其任何衍生作品,则本协议第2条不适用于你。 iii. 你必须在你分发的所有Llama材料副本中,在作为此类副本一部分分发的“通知”文本文件中保留以下归属声明:“Meta Llama 3 is licensed under the Meta Llama 3 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.” iv. 你使用Llama材料必须遵守适用的法律法规(包括贸易合规法律法规),并遵守Llama材料的《可接受使用政策》(可在https://llama.meta.com/llama3/use-policy 找到),该政策特此通过引用并入本协议。 v. 你不得使用Llama材料或Llama材料的任何输出或结果来改进任何其他大语言模型(不包括Meta Llama 3或其衍生作品)。
- 额外商业条款。如果在Meta Llama 3版本发布日期,被许可方或被许可方的关联方提供的产品或服务在前一个日历月的月活跃用户数超过7亿,则你必须向Meta请求许可,Meta可自行决定是否授予你许可,并且在Meta明确授予你此类权利之前,你无权行使本协议下的任何权利。
- 保修免责声明。除非适用法律要求,否则Llama材料及其任何输出和结果按“现状”提供,不提供任何形式的保修,Meta明确否认所有明示和暗示的保修,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保修。你独自负责确定使用或再分发Llama材料的适当性,并承担与你使用Llama材料及其任何输出和结果相关的任何风险。
- 责任限制。在任何情况下,Meta或其关联方均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任,无论责任理论为何,包括合同、侵权、疏忽、产品责任或其他,即使Meta或其关联方已被告知此类损害的可能性。
- 知识产权 a. 本协议未授予商标许可,关于Llama材料,除非为合理和惯常描述和再分发Llama材料所需,或如本节5(a)所述,Meta和被许可方均不得使用对方或其关联方拥有或关联的任何名称或标记。Meta特此授予你仅为遵守第1.b.i条最后一句所需而使用“Llama 3”(“标记”)的许可。你将遵守Meta的品牌指南(目前可在https://about.meta.com/brand/resources/meta/company-brand/ 访问)。因你使用标记而产生的所有商誉将归Meta所有。 b. 鉴于Meta对Llama材料及其为Meta制作或由Meta制作的衍生作品的所有权,关于你制作的Llama材料的任何衍生作品和修改,在你和Meta之间,你是并将继续是此类衍生作品和修改的所有者。 c. 如果你对Meta或任何实体提起诉讼或其他法律程序(包括在诉讼中的交叉索赔或反诉),声称Llama材料或Meta Llama 3的输出或结果,或上述任何部分构成侵犯你拥有或可许可的知识产权或其他权利,则本协议授予你的任何许可应自提起此类诉讼或索赔之日起终止。你将赔偿并使Meta免受任何第三方因你使用或分发Llama材料而产生或与之相关的任何索赔。
- 期限和终止。本协议的期限自你接受本协议或访问Llama材料时开始,并将持续有效,直至根据本协议的条款和条件终止。如果被许可方违反本协议的任何条款或条件,Meta可终止本协议。本协议终止后,你应删除并停止使用Llama材料。第3、4和7条在本协议终止后仍然有效。
- 适用法律和管辖权。本协议受加利福尼亚州法律管辖并依其解释,不考虑法律选择原则,《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
Meta Llama 3可接受使用政策
Meta致力于促进其工具和功能(包括Meta Llama 3)的安全和公平使用。如果你访问或使用Meta Llama 3,你同意遵守本《可接受使用政策》(“政策”)。本政策的最新版本可在https://llama.meta.com/llama3/use-policy找到。
禁止使用
我们希望每个人都能安全、负责任地使用Meta Llama 3。你同意你不会使用或允许他人使用Meta Llama 3进行以下行为:
- 违反法律或他人权利,包括:
- 参与、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容,例如:
- 暴力或恐怖主义
- 对儿童的剥削或伤害,包括招揽、创建、获取或传播儿童剥削内容或未报告儿童性虐待材料
- 人口贩运、剥削和性暴力
- 向未成年人非法分发信息或材料,包括淫秽材料,或未对相关信息或材料采用法律要求的年龄限制
- 性招揽
- 任何其他犯罪活动
- 参与、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
- 参与、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务提供方面的歧视或其他非法或有害行为
- 从事未经授权或无执照的任何专业实践,包括但不限于金融、法律、医疗/健康或相关专业实践
- 在未获得适用法律要求的权利和同意的情况下,收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息
- 参与或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容,包括使用Llama材料的任何产品或服务的输出或结果
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒或进行任何可能禁用、负担过重、干扰或损害网站或计算机系统正常运行、完整性、操作或外观的其他操作
- 参与、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容,例如:
- 参与、促进、煽动、便利或协助策划或开展对个人造成死亡或身体伤害风险的活动,包括与以下方面相关的Meta Llama 3使用:
- 军事、战争、核工业或应用、间谍活动、使用受美国国务院维护的《国际武器贸易条例》(ITAR)管制的材料或活动
- 枪支和非法武器(包括武器开发)
- 非法药物和受管制/受控物质
- 关键基础设施、运输技术或重型机械的操作
- 自我伤害或伤害他人,包括自杀、自残和饮食失调
- 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
- 故意欺骗或误导他人,包括与以下方面相关的Meta Llama 3使用:
- 生成、促进或进一步推动欺诈或创建或促进虚假信息
- 生成、促进或进一步推动诽谤性内容,包括创建诽谤性声明、图像或其他内容
- 生成、促进或进一步分发垃圾邮件
- 在未获得同意、授权或合法权利的情况下冒充他人
- 表示使用Meta Llama 3或其输出是人类生成的
- 生成或便利虚假的在线互动,包括虚假评论和其他虚假在线互动方式
- 未能向最终用户适当披露你的AI系统的任何已知危险
请通过以下方式之一报告本政策的任何违反情况、软件“漏洞”或其他可能导致违反本政策的问题:
- 报告模型问题:https://github.com/meta-llama/llama3
- 报告模型生成的风险内容:developers.facebook.com/llama_output_feedback
- 报告漏洞和安全问题:facebook.com/whitehat/info
- 报告违反可接受使用政策或未经授权使用Meta Llama 3的情况:LlamaUseReport@meta.com
引用说明
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
贡献者
Aaditya Singh; Aaron Grattafiori; Abhimanyu Dubey; Abhinav Jauhri; Abhinav Pandey; Abhishek Kadian; Adam Kelsey; Adi Gangidi; Ahmad Al-Dahle; Ahuva Goldstand; Aiesha Letman; Ajay Menon; Akhil Mathur; Alan Schelten; Alex Vaughan; Amy Yang; Andrei Lupu; Andres Alvarado; Andrew Gallagher; Andrew Gu; Andrew Ho; Andrew Poulton; Andrew Ryan; Angela Fan; Ankit Ramchandani; Anthony Hartshorn; Archi Mitra; Archie Sravankumar; Artem Korenev; Arun Rao; Ashley Gabriel; Ashwin Bharambe; Assaf Eisenman; Aston Zhang; Aurelien Rodriguez; Austen Gregerson; Ava Spataru; Baptiste Roziere; Ben Maurer; Benjamin Leonhardi; Bernie Huang; Bhargavi Paranjape; Bing Liu; Binh Tang; Bobbie Chern; Brani Stojkovic; Brian Fuller; Catalina Mejia Arenas; Chao Zhou; Charlotte Caucheteux; Chaya Nayak; Ching-Hsiang Chu; Chloe Bi; Chris Cai; Chris Cox; Chris Marra; Chris McConnell; Christian Keller; Christoph Feichtenhofer; Christophe Touret; Chunyang Wu; Corinne Wong; Cristian Canton Ferrer; Damien Allonsius; Daniel Kreymer; Daniel Haziza; Daniel Li; Danielle Pintz; Danny Livshits; Danny Wyatt; David Adkins; David Esiobu; David Xu; Davide Testuggine; Delia David; Devi Parikh; Dhruv Choudhary; Dhruv Mahajan; Diana Liskovich; Diego Garcia-Olano; Diego Perino; Dieuwke Hupkes; Dingkang Wang; Dustin Holland; Egor Lakomkin; Elina Lobanova; Xiaoqing Ellen Tan; Emily Dinan; Eric Smith; Erik Brinkman; Esteban Arcaute; Filip Radenovic; Firat Ozgenel; Francesco Caggioni; Frank Seide; Frank Zhang; Gabriel Synnaeve; Gabriella Schwarz; Gabrielle Lee; Gada Badeer; Georgia Anderson; Graeme Nail; Gregoire Mialon; Guan Pang; Guillem Cucurell; Hailey Nguyen; Hannah Korevaar; Hannah Wang; Haroun Habeeb; Harrison Rudolph; Henry Aspegren; Hu Xu; Hugo Touvron; Iga Kozlowska; Igor Molybog; Igor Tufanov; Iliyan Zarov; Imanol Arrieta Ibarra; Irina-Elena Veliche; Isabel Kloumann; Ishan Misra; Ivan Evtimov; Jacob Xu; Jade Copet; Jake Weissman; Jan Geffert; Jana Vranes; Japhet Asher; Jason Park; Jay Mahadeokar; Jean-Baptiste Gaya; Jeet Shah; Jelmer van der Linde; Jennifer Chan; Jenny Hong; Jenya Lee; Jeremy Fu; Jeremy Teboul; Jianfeng Chi; Jianyu Huang; Jie Wang; Jiecao Yu; Joanna Bitton; Joe Spisak; Joelle Pineau; Jon Carvill; Jongsoo Park; Joseph Rocca; Joshua Johnstun; Junteng Jia; Kalyan Vasuden Alwala; Kam Hou U; Kate Plawiak; Kartikeya Upasani; Kaushik Veeraraghavan; Ke Li; Kenneth Heafield; Kevin Stone; Khalid El-Arini; Krithika Iyer; Kshitiz Malik; Kuenley Chiu; Kunal Bhalla; Kyle Huang; Lakshya Garg; Lauren Rantala-Yeary; Laurens van der Maaten; Lawrence Chen; Leandro Silva; Lee Bell; Lei Zhang; Liang Tan; Louis Martin; Lovish Madaan; Luca Wehrstedt; Lukas Blecher; Luke de Oliveira; Madeline Muzzi; Madian Khabsa; Manav Avlani; Mannat Singh; Manohar Paluri; Mark Zuckerberg; Marcin Kardas; Martynas Mankus; Mathew Oldham; Mathieu Rita; Matthew Lennie; Maya Pavlova; Meghan Keneally; Melanie Kambadur; Mihir Patel; Mikayel Samvelyan; Mike Clark; Mike Lewis; Min Si; Mitesh Kumar Singh; Mo Metanat; Mona Hassan; Naman Goyal; Narjes Torabi; Nicolas Usunier; Nikolay Bashlykov; Nikolay Bogoychev; Niladri Chatterji; Ning Dong; Oliver Aobo Yang; Olivier Duchenne; Onur Celebi; Parth Parekh; Patrick Alrassy; Paul Saab; Pavan Balaji; Pedro Rittner; Pengchuan Zhang; Pengwei Li; Petar Vasic; Peter Weng; Polina Zvyagina; Prajjwal Bhargava; Pratik Dubal; Praveen Krishnan; Punit Singh Koura; Qing He; Rachel Rodriguez; Ragavan Srinivasan; Rahul Mitra; Ramon Calderer; Raymond Li; Robert Stojnic; Roberta Raileanu; Robin Battey; Rocky Wang; Rohit Girdhar; Rohit Patel; Romain Sauvestre; Ronnie Polidoro; Roshan Sumbaly; Ross Taylor; Ruan Silva; Rui Hou; Rui Wang; Russ Howes; Ruty Rinott; Saghar Hosseini; Sai Jayesh Bondu; Samyak Datta; Sanjay Singh; Sara Chugh; Sargun Dhillon; Satadru Pan; Sean Bell; Sergey Edunov; Shaoliang Nie; Sharan Narang; Sharath Raparthy; Shaun Lindsay; Sheng Feng; Sheng Shen; Shenghao Lin; Shiva Shankar; Shruti Bhosale; Shun Zhang; Simon Vandenhende; Sinong Wang; Seohyun Sonia Kim; Soumya Batra; Sten Sootla; Steve Kehoe; Suchin Gururangan; Sumit Gupta; Sunny Virk; Sydney Borodinsky; Tamar Glaser; Tamar Herman; Tamara Best; Tara Fowler; Thomas Georgiou; Thomas Scialom; Tianhe Li; Todor Mihaylov; Tong Xiao; Ujjwal Karn; Vedanuj Goswami; Vibhor Gupta; Vignesh Ramanathan; Viktor Kerkez; Vinay Satish Kumar; Vincent Gonguet; Vish Vogeti; Vlad Poenaru; Vlad Tiberiu Mihailescu; Vladan Petrovic; Vladimir Ivanov; Wei Li; Weiwei Chu; Wenhan Xiong; Wenyin Fu; Wes Bouaziz; Whitney Meers; Will Constable; Xavier Martinet; Xiaojian Wu; Xinbo Gao; Xinfeng Xie; Xuchao Jia; Yaelle Goldschlag; Yann LeCun; Yashesh Gaur; Yasmine Babaei; Ye Qi; Yenda Li; Yi Wen; Yiwen Song; Youngjin Nam; Yuchen Hao; Yuchen Zhang; Yun Wang; Yuning Mao; Yuzi He; Zacharie Delpierre Coudert; Zachary DeVito; Zahra Hankir; Zhaoduo Wen; Zheng Yan; Zhengxing Chen; Zhenyu Yang; Zoe Papakipos



