Reflection-Llama-3.1-70B開源大語言模型 - 自主糾錯優化推理方向

首頁

Reflection Llama 3.1 70B

由mattshumer開發

Reflection Llama-3.1 70B 是一款開源大語言模型，採用'反思調優'技術訓練，能夠自主檢測推理錯誤並修正方向。

大型語言模型

Transformers

#自主糾錯推理 #合成數據訓練 #思維可視化輸出

下載量 199

發布時間 : 9/5/2024

模型概述

基於 Llama 3.1 70B Instruct 訓練，具備複雜推理與反思能力，通過特殊標記分離推理過程和最終答案。

模型特點

反思調優技術

能夠自主檢測推理錯誤並在<reflection>標記內進行修正

透明推理過程

在<thinking>和</thinking>標記間輸出完整推理過程

標準化輸出格式

最終答案置於<output>和</output>標記內，實現思考與輸出的分離

高性能基礎

基於當前最強的開源模型 Llama 3.1 70B Instruct 構建

模型能力

複雜邏輯推理

自我錯誤檢測

多輪對話

文本生成

指令跟隨

使用案例

智能助手

高精度問答系統

通過反思機制確保答案准確性

相比傳統模型減少推理錯誤

教育領域

解題過程展示

展示完整思考路徑供學習參考

透明化AI推理過程

🚀 Reflection Llama-3.1 70B

Reflection Llama-3.1 70B是一個開源大語言模型（LLM），它採用了一種名為“反思調優（Reflection-Tuning）”的新技術進行訓練。這項技術能讓模型檢測自身推理過程中的錯誤並及時糾正，為用戶提供更準確的回答。

重要更新提示

⚠️ 重要提示

我們首次上傳該模型時存在一個問題。如果您之前嘗試使用但效果不佳，請再次嘗試，我們認為問題已得到修復。

您可以在此試用該模型。該模型基於由Glaive生成的合成數據進行訓練。如果您正在訓練模型，Glaive是個很棒的選擇，推薦使用。

📦 安裝指南

暫未提供安裝步驟相關內容。

💻 使用示例

基礎用法

該模型基於Llama 3.1 70B Instruct進行訓練，您可以使用與其他Llama模型相同的代碼、管道等來對Reflection Llama-3.1 70B進行採樣。它使用標準的Llama 3.1聊天模板格式（不過，我們在模型中訓練了一些新的特殊標記，以輔助推理和反思）。

在採樣過程中，模型會先在<thinking>和</thinking>標籤內輸出推理過程，一旦對推理結果滿意，就會在<output>和</output>標籤內輸出最終答案。這些標籤都是訓練到模型中的特殊標記。

以下是聊天格式示例：

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>

what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

高級用法

在<thinking>部分，模型可能會輸出一個或多個<reflection>標籤，這表明模型在推理過程中發現了錯誤，並會在提供最終答案之前嘗試糾正。

📚 詳細文檔

基準測試

在採樣時，模型能夠將內部思考和推理過程與最終答案分開，從而提升用戶體驗。

系統提示

訓練該模型使用的系統提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.

我們建議使用此確切的系統提示，以從Reflection Llama-3.1 70B獲得最佳效果。您也可以嘗試將此係統提示與您自己的自定義指令結合使用，以自定義模型的行為。