tulu-2-dpo-7b開源語言模型 - 免費部署的通用助手，高效解決多樣需求

首頁

Tulu 2 Dpo 7b

由allenai開發

Tulu V2 DPO 7B是基於Llama 2 7B微調的語言模型，採用直接偏好優化(DPO)方法訓練，旨在作為通用助手。

大型語言模型

Transformers

英語開源協議:其他 #指令優化助手 #DPO對齊 #多輪對話增強

下載量 1,702

發布時間 : 11/13/2023

模型概述

該模型是基於Llama 2 7B的指令微調版本，使用了公開可用、合成及人類數據集進行訓練，特別採用DPO方法進行偏好優化，是Llama 2 7B Chat的有力替代品。

模型特點

直接偏好優化(DPO)

採用DPO方法進行訓練，相比傳統RLHF能更高效地進行偏好對齊

多樣化訓練數據

使用公開可用、合成及人類創建的數據集混合訓練，包括UltraFeedback和Tulu V2 SFT混合數據集

高性能替代方案

相比基礎Llama 2 7B Chat模型，在多項基準測試中表現更優

模型能力

自然語言理解

指令跟隨

對話生成

文本補全

使用案例

對話系統

智能助手

可作為個人或企業智能助手，處理各種查詢和任務

在AlpacaEval基準測試中達到85.1%的勝率

內容生成

創意寫作

輔助進行故事創作、詩歌寫作等創意文本生成

🚀 Tulu V2 DPO 7B模型卡

Tulu是一系列經過訓練的語言模型，旨在成為用戶的得力助手。Tulu V2 DPO 7B是Llama 2的微調版本，它使用直接偏好優化（DPO）方法，在公開可用、合成和人工數據集的混合數據上進行訓練。該模型是Llama 2 7b Chat的有力替代方案。

如需瞭解更多詳情，請閱讀論文：Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2。

🚀 快速開始

Tulu V2 DPO 7B模型是基於Llama 2微調而來，使用特定的數據集和優化方法進行訓練，為用戶提供了一個強大的語言交互工具。

✨ 主要特性

訓練方法先進：採用直接偏好優化（DPO）方法進行訓練，提升模型性能。
數據來源多樣：在公開可用、合成和人工數據集的混合數據上進行訓練，使模型具有更廣泛的知識和更強的適應性。
替代方案優秀：是Llama 2 7b Chat的有力替代方案，為用戶提供更多選擇。

📚 詳細文檔

模型描述

屬性	詳情
模型類型	屬於一套指令和基於強化學習人類反饋（RLHF）調整的聊天模型套件，在公開可用、合成和人工創建的數據集混合上進行調整。
語言（NLP）	主要為英語
許可證	AI2 ImpACT低風險許可證。
微調基礎模型	meta-llama/Llama-2-7b-hf

模型來源

倉庫：https://github.com/allenai/open-instruct
DPO配方：DPO配方來自Zephyr Beta模型
模型家族：其他模型和數據集可在Tulu V2集合中找到。

性能表現

模型	大小	對齊方式	MT-Bench（得分）	AlpacaEval（勝率 %）
Tulu-v2-7b 🐪	7B	SFT	6.30	73.9
Tulu-v2-dpo-7b 🐪	7B	DPO	6.29	85.1
Tulu-v2-13b 🐪	13B	SFT	6.70	78.9
Tulu-v2-dpo-13b 🐪	13B	DPO	7.00	89.5
Tulu-v2-70b 🐪	70B	SFT	7.49	86.6
Tulu-v2-dpo-70b 🐪	70B	DPO	7.89	95.1

輸入格式

模型訓練使用以下格式（注意換行符）：

<|user|>
Your message here!
<|assistant|>

為獲得最佳效果，請以這種方式格式化所有輸入。確保在 <|assistant|> 後包含換行符，這可能會對生成質量產生較大影響。

預期用途和限制

該模型最初在經過過濾和預處理的Tulu V2混合數據集上進行微調，該數據集包含各種人類創建的指令和主要由其他大語言模型生成的合成對話。然後，使用基於EasyLM構建的Jax DPO訓練器，在openbmb/UltraFeedback數據集上進一步調整模型，該數據集包含64k個由GPT - 4排名的提示和模型完成內容。

偏差、風險和限制

Tulu模型在強化學習人類反饋（RLHF）階段未進行安全生成調整，也未像ChatGPT那樣在部署時進行響應過濾，因此模型可能會產生有問題的輸出（特別是在被明確要求時）。此外，目前尚不清楚訓練基礎Llama 2模型的語料庫的大小和組成，但很可能包含網絡數據和書籍、代碼等技術來源的混合。可參考Falcon 180B模型卡瞭解相關示例。

訓練超參數

以下是DPO訓練期間使用的超參數：

學習率：5e - 07
總訓練批次大小：32
優化器：Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型：線性
學習率調度器預熱比例：0.1
訓練輪數：3.0

🔧 技術細節

訓練方法

使用直接偏好優化（DPO）方法對Llama 2進行微調，結合多種數據集提升模型性能。

數據集

Tulu V2混合數據集：包含人類創建的指令和合成對話，經過過濾和預處理。
openbmb/UltraFeedback數據集：包含64k個由GPT - 4排名的提示和模型完成內容。

訓練超參數

在DPO訓練過程中，使用了特定的學習率、批次大小、優化器等超參數，以確保模型的訓練效果。

📄 許可證

該模型使用AI2 ImpACT低風險許可證。

📝 引用

如果您發現Tulu 2在您的工作中很有用，請使用以下方式引用：

@misc{ivison2023camels,
      title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2}, 
      author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
      year={2023},
      eprint={2311.10702},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

模型卡改編自Zephyr Beta