Smaug-34B-v0.1開源大語言模型 - 免費微調帶來更優偏好學習體驗

首頁

Smaug 34B V0.1

由abacusai開發

基於jondurbin/bagel-34b-v0.2微調的大語言模型，採用新型DPO-Positive（DPOP）技術優化偏好學習

大型語言模型

Transformers

開源協議:Apache-2.0 #DPOP優化 #數學推理增強 #高精度偏好學習

下載量 2,694

發布時間 : 1/25/2024

模型概述

Smaug-34B-v0.1是一個34B參數的大語言模型，通過DPOP技術改進標準DPO的缺陷，在數學推理和通用任務中表現優異。

模型特點

DPOP優化技術

通過新型DPO-Positive損失函數解決標準DPO在編輯距離小的任務中的性能下降問題

多領域性能提升

在ARC、HellaSwag、MetaMath等多樣化數據集上表現優異

開源技術棧

完整訓練細節和數據集已通過論文開源，支持社區持續優化

模型能力

複雜文本生成

數學問題求解

常識推理

開放域問答

真實性回答生成

使用案例

教育

數學輔導

幫助學生解決GSM8K等數學問題

GSM8K得分72.18

研究

偏好學習研究

作為DPOP技術的基準模型

在多項任務中優於標準DPO

🚀 Smaug-34B-v0.1模型

Smaug-34B-v0.1是一個基於微調技術的模型，它在圖像識別和自然語言處理等領域具有廣泛的應用前景。該模型通過全新的微調技術和訓練數據集，提升了模型的性能和泛化能力。

image/png

🚀 快速開始

本模型是對jondurbin優秀的bagel模型的微調版本，且未採用任何形式的合併。

我們使用一種新的微調技術DPO-Positive (DPOP)以及ARC、HellaSwag和MetaMath的新成對偏好版本（以及其他現有數據集）創建了Smaug-34B-v0.1。我們在新論文中介紹了該技術和完整的訓練細節：https://arxiv.org/abs/2402.13228 。

我們發現，在完成對之間的編輯距離較低的數據集（如基於數學的數據集）中，只要首選和非首選類別之間的相對概率增加，標準DPO損失可能會導致模型對首選示例的似然性降低。基於這些見解，我們設計了DPOP，這是一種新的損失函數和訓練過程，可避免這種失敗模式。令人驚訝的是，我們還發現DPOP在各種數據集和下游任務中都優於DPO，包括完成之間編輯距離較高的數據集。

我們相信這種新方法在各種模型類型和下游用例的訓練中普遍有用，並且它為我們所有的Smaug模型提供了支持。隨著我們的論文和數據集的發佈，我們期待開源社區繼續基於Smaug進行構建和改進，催生更多的“龍模型”來主導大語言模型領域！

✨ 主要特性

全新微調技術：採用DPO-Positive (DPOP)損失函數和訓練過程，避免了標準DPO損失在某些數據集上的失敗模式。
廣泛適用性：在各種數據集和下游任務中表現出色，包括完成之間編輯距離較高的數據集。
開源共享：隨著論文和數據集的發佈，鼓勵開源社區參與改進和拓展。

📚 詳細文檔

評估結果

平均值	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
77.29	74.23	86.76	76.66	70.22	83.66	72.18

汙染結果

參考模型為jondurbin/bagel-34b-v0.2：

ARC	TruthfulQA	GSM8K
0.08	0.38	0.88

引用信息

如果您使用了本倉庫中的數據、模型或方法，請引用以下論文：

@article{pal2024smaug,
  title={Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive},
  author={Pal, Arka and Karkhanis, Deep and Dooley, Samuel and Roberts, Manley and Naidu, Siddartha and White, Colin},
  journal={arXiv preprint arXiv:2402.13228},
  year={2024}
}