🚀 Reflection Llama-3.1 70B
Reflection Llama-3.1 70B是一個開源大語言模型(LLM),它採用了一種名為“反思調優(Reflection-Tuning)”的新技術進行訓練。這項技術能讓模型檢測自身推理過程中的錯誤並及時糾正,為用戶提供更準確的回答。
重要更新提示
⚠️ 重要提示
我們首次上傳該模型時存在一個問題。如果您之前嘗試使用但效果不佳,請再次嘗試,我們認為問題已得到修復。
您可以在此試用該模型。該模型基於由Glaive生成的合成數據進行訓練。如果您正在訓練模型,Glaive是個很棒的選擇,推薦使用。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
該模型基於Llama 3.1 70B Instruct進行訓練,您可以使用與其他Llama模型相同的代碼、管道等來對Reflection Llama-3.1 70B進行採樣。它使用標準的Llama 3.1聊天模板格式(不過,我們在模型中訓練了一些新的特殊標記,以輔助推理和反思)。
在採樣過程中,模型會先在<thinking>
和</thinking>
標籤內輸出推理過程,一旦對推理結果滿意,就會在<output>
和</output>
標籤內輸出最終答案。這些標籤都是訓練到模型中的特殊標記。
以下是聊天格式示例:
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>
what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
高級用法
在<thinking>
部分,模型可能會輸出一個或多個<reflection>
標籤,這表明模型在推理過程中發現了錯誤,並會在提供最終答案之前嘗試糾正。
📚 詳細文檔
基準測試
在採樣時,模型能夠將內部思考和推理過程與最終答案分開,從而提升用戶體驗。
系統提示
訓練該模型使用的系統提示如下:
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.
我們建議使用此確切的系統提示,以從Reflection Llama-3.1 70B獲得最佳效果。您也可以嘗試將此係統提示與您自己的自定義指令結合使用,以自定義模型的行為。
性能提示
💡 使用建議
- 我們最初建議將
temperature
設置為0.7
,top_p
設置為0.95
。
- 為提高準確性,請在消息末尾添加
Think carefully.
。
數據集/報告
數據集和詳細介紹該模型訓練方式的簡要報告將於下週發佈,同時發佈的還有我們的Reflection 405B模型,我們預計它將成為全球表現最佳的大語言模型,包括閉源模型。
📄 許可證
本模型使用的許可證為llama3.1。
致謝
感謝HyperWrite團隊的Jason Kuperberg和Josh Bickett對我們下週即將發佈的報告草稿進行審核。
另外,我們知道目前模型被拆分成了大量文件,我們將盡快進行整合,以便更輕鬆地下載和使用該模型。