Reflection-Llama-3.1-70B开源大语言模型 - 自主纠错优化推理方向

首页

Reflection Llama 3.1 70B

由 mattshumer 开发

Reflection Llama-3.1 70B 是一款开源大语言模型，采用'反思调优'技术训练，能够自主检测推理错误并修正方向。

大型语言模型

Transformers

#自主纠错推理 #合成数据训练 #思维可视化输出

下载量 199

发布时间 : 9/5/2024

模型简介

基于 Llama 3.1 70B Instruct 训练，具备复杂推理与反思能力，通过特殊标记分离推理过程和最终答案。

模型特点

反思调优技术

能够自主检测推理错误并在<reflection>标记内进行修正

透明推理过程

在<thinking>和</thinking>标记间输出完整推理过程

标准化输出格式

最终答案置于<output>和</output>标记内，实现思考与输出的分离

高性能基础

基于当前最强的开源模型 Llama 3.1 70B Instruct 构建

模型能力

复杂逻辑推理

自我错误检测

多轮对话

文本生成

指令跟随

使用案例

智能助手

高精度问答系统

通过反思机制确保答案准确性

相比传统模型减少推理错误

教育领域

解题过程展示

展示完整思考路径供学习参考

透明化AI推理过程

🚀 Reflection Llama-3.1 70B

Reflection Llama-3.1 70B是一个开源大语言模型（LLM），它采用了一种名为“反思调优（Reflection-Tuning）”的新技术进行训练。这项技术能让模型检测自身推理过程中的错误并及时纠正，为用户提供更准确的回答。

重要更新提示

⚠️ 重要提示

我们首次上传该模型时存在一个问题。如果您之前尝试使用但效果不佳，请再次尝试，我们认为问题已得到修复。

您可以在此试用该模型。该模型基于由Glaive生成的合成数据进行训练。如果您正在训练模型，Glaive是个很棒的选择，推荐使用。

📦 安装指南

暂未提供安装步骤相关内容。

💻 使用示例

基础用法

该模型基于Llama 3.1 70B Instruct进行训练，您可以使用与其他Llama模型相同的代码、管道等来对Reflection Llama-3.1 70B进行采样。它使用标准的Llama 3.1聊天模板格式（不过，我们在模型中训练了一些新的特殊标记，以辅助推理和反思）。

在采样过程中，模型会先在<thinking>和</thinking>标签内输出推理过程，一旦对推理结果满意，就会在<output>和</output>标签内输出最终答案。这些标签都是训练到模型中的特殊标记。

以下是聊天格式示例：

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>

what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

高级用法

在<thinking>部分，模型可能会输出一个或多个<reflection>标签，这表明模型在推理过程中发现了错误，并会在提供最终答案之前尝试纠正。

📚 详细文档

基准测试

在采样时，模型能够将内部思考和推理过程与最终答案分开，从而提升用户体验。

系统提示

训练该模型使用的系统提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.

我们建议使用此确切的系统提示，以从Reflection Llama-3.1 70B获得最佳效果。您也可以尝试将此系统提示与您自己的自定义指令结合使用，以自定义模型的行为。