🚀 Reflection Llama-3.1 70B
Reflection Llama-3.1 70B是一个开源大语言模型(LLM),它采用了一种名为“反思调优(Reflection-Tuning)”的新技术进行训练。这项技术能让模型检测自身推理过程中的错误并及时纠正,为用户提供更准确的回答。
重要更新提示
⚠️ 重要提示
我们首次上传该模型时存在一个问题。如果您之前尝试使用但效果不佳,请再次尝试,我们认为问题已得到修复。
您可以在此试用该模型。该模型基于由Glaive生成的合成数据进行训练。如果您正在训练模型,Glaive是个很棒的选择,推荐使用。
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
基础用法
该模型基于Llama 3.1 70B Instruct进行训练,您可以使用与其他Llama模型相同的代码、管道等来对Reflection Llama-3.1 70B进行采样。它使用标准的Llama 3.1聊天模板格式(不过,我们在模型中训练了一些新的特殊标记,以辅助推理和反思)。
在采样过程中,模型会先在<thinking>
和</thinking>
标签内输出推理过程,一旦对推理结果满意,就会在<output>
和</output>
标签内输出最终答案。这些标签都是训练到模型中的特殊标记。
以下是聊天格式示例:
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>
what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
高级用法
在<thinking>
部分,模型可能会输出一个或多个<reflection>
标签,这表明模型在推理过程中发现了错误,并会在提供最终答案之前尝试纠正。
📚 详细文档
基准测试
在采样时,模型能够将内部思考和推理过程与最终答案分开,从而提升用户体验。
系统提示
训练该模型使用的系统提示如下:
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.
我们建议使用此确切的系统提示,以从Reflection Llama-3.1 70B获得最佳效果。您也可以尝试将此系统提示与您自己的自定义指令结合使用,以自定义模型的行为。
性能提示
💡 使用建议
- 我们最初建议将
temperature
设置为0.7
,top_p
设置为0.95
。
- 为提高准确性,请在消息末尾添加
Think carefully.
。
数据集/报告
数据集和详细介绍该模型训练方式的简要报告将于下周发布,同时发布的还有我们的Reflection 405B模型,我们预计它将成为全球表现最佳的大语言模型,包括闭源模型。
📄 许可证
本模型使用的许可证为llama3.1。
致谢
感谢HyperWrite团队的Jason Kuperberg和Josh Bickett对我们下周即将发布的报告草稿进行审核。
另外,我们知道目前模型被拆分成了大量文件,我们将尽快进行整合,以便更轻松地下载和使用该模型。