🚀 史矛革(Smaug)模型 - 72B-v0.1版本
史矛革(Smaug)模型72B-v0.1版本震撼登場!它在HuggingFace的開源大語言模型排行榜上拔得頭籌,是首個平均得分超過80%的開源模型。該模型直接基於moreh/MoMo-72B-lora-1.8.7-DPO進行微調,最終基於Qwen-72B構建。

🚀 快速開始
本項目發佈了Smaug-72B-v0.1模型,它採用了全新的微調技術DPO-Positive(DPOP),結合ARC、HellaSwag和MetaMath等數據集的新成對偏好版本進行訓練。相關技術和完整訓練細節可參考我們的新論文:https://arxiv.org/abs/2402.13228。
✨ 主要特性
- 創新微調技術:使用DPO-Positive(DPOP)損失函數和訓練過程,避免了標準DPO損失在某些數據集上的失效模式,在多種數據集和下游任務中表現優於DPO。
- 優異性能表現:在多個評估基準測試中取得了出色的成績,平均得分超過80%,在多個單項測試中也名列前茅。
- 廣泛適用性:新方法適用於多種模型類型和下游用例,為模型訓練提供了更有效的解決方案。
📚 詳細文檔
評估結果
平均得分 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
Winogrande |
GSM8K |
80.48 |
76.02 |
89.27 |
77.15 |
76.67 |
85.08 |
78.70 |
MT-Bench測試
使用llama-2對話模板和Qwen系統提示進行MT-Bench測試,單模型模式下的結果如下:
第一輪得分 |
第二輪得分 |
平均得分 |
8.18 |
7.34 |
7.76 |
汙染結果
使用https://github.com/swj0419/detect-pretrain-code-contamination/tree/master工具,以Llama7B為參考模型,對Smaug-72B進行汙染檢測,結果如下:
ARC |
TruthfulQA |
GSM8K |
0.20 |
0.45 |
1.00 |
對比模型MoMo-72B-lora-1.8.7-DPO的汙染檢測結果:
ARC |
TruthfulQA |
GSM8K |
0.20 |
0.39 |
1.00 |
同時,對Llama-2-70B進行檢測的結果如下:
ARC |
TruthfulQA |
GSM8K |
0.22 |
0.51 |
0.89 |
樣本MT Bench結果
示例1
問題:假設你正在撰寫一篇比較兩款熱門智能手機型號的博客文章。為該博客文章制定一個大綱,包括關鍵點和副標題,以便有效地比較和對比這兩款型號的功能、性能和用戶體驗。請用少於200個單詞回答。
回答:
大綱:
- 介紹要比較的兩款智能手機型號(提及品牌名稱和型號)
- 設計與製造質量
- 比較尺寸、重量、使用的材料和整體美學吸引力
- 如有適用,比較防水防塵性能
- 顯示屏和屏幕質量
- 比較屏幕技術(OLED、IPS LCD等)
- 比較顯示分辨率、刷新率和亮度級別
- 性能和硬件
- 處理器、RAM和存儲配置
- 比較基準測試分數(如安兔兔、Geekbench)
- 攝像頭系統和圖像質量
- 比較主鏡頭、超廣角鏡頭、長焦鏡頭和微距鏡頭(如果有)
- 比較低光性能和圖像處理能力
- 電池續航和充電
- 電池容量和估計使用時間
- 充電技術(有線、無線、快速充電、反向充電)
- 軟件和用戶體驗
- 比較操作系統(iOS與Android)及其功能
- 用戶界面、定製選項和應用生態系統
- 附加功能和額外特性
- 比較生物識別認證(指紋、面部解鎖等)
- 額外功能如NFC、5G連接和音頻質量
- 價格和性價比
- 結論和根據潛在買家的偏好提供的建議
示例2
問題:在當地一所高中進行的一項調查中,對新學校顏色的偏好進行了測量:58%的學生喜歡藍色,45%的學生喜歡綠色,22%的學生兩種顏色都喜歡。如果我們從學校中隨機挑選一名學生,那麼該學生既不喜歡藍色也不喜歡綠色的概率是多少?
回答:要找到隨機挑選的學生既不喜歡藍色也不喜歡綠色的概率,我們需要找到只喜歡一種顏色或兩種顏色都不喜歡的學生的百分比。
根據給定信息,我們知道:
- 58%的學生喜歡藍色
- 45%的學生喜歡綠色
- 22%的學生兩種顏色都喜歡
要找到只喜歡一種顏色的學生的百分比,我們可以從喜歡藍色和綠色的學生的總和中減去兩種顏色都喜歡的學生的百分比:
- 58%(藍色)+ 45%(綠色)- 22%(兩種顏色都喜歡)= 83%
現在,要找到學生既不喜歡藍色也不喜歡綠色的概率,我們從100%中減去至少喜歡一種顏色的學生的百分比:
- 100% - 83% = 17%
所以,隨機挑選的學生既不喜歡藍色也不喜歡綠色的概率是17%。
示例3
問題:實現一個程序,在不使用任何額外數據結構的情況下,找出兩個數組中的公共元素。
回答:在不使用額外數據結構的情況下找出兩個數組中的公共元素,可以通過一個簡單的算法來實現。以下是這個問題的Python實現:
def find_common_elements(arr1, arr2):
common_elements = []
for num1 in arr1:
if num1 in arr2 and num1 not in common_elements:
common_elements.append(num1)
return common_elements
array1 = [1, 2, 3, 4, 5]
array2 = [4, 5, 6, 7, 8]
print(find_common_elements(array1, array2))
這個程序遍歷第一個數組(arr1)的元素,並檢查每個元素是否存在於第二個數組(arr2)中。如果存在,並且該元素尚未添加到common_elements列表中,則將其添加。然後,該函數返回公共元素列表。
示例4
問題:識別給定新聞文章中提到的命名實體(人物、組織、地點)。請生成一個JSON字典,根據實體類型將命名實體分為三組列出。鍵是實體類型,值是字符串列表。
昨天,法拉第(Faraday)首席執行官亞當森·愛默生(Adamson Emerson)和戴姆勒(Daimler AG)首席執行官迪特爾·蔡澈(Dieter Zetsche)宣佈計劃在柏林建造一座新的超級工廠。該工廠將是法拉第和戴姆勒的合資企業,為兩家公司生產電動汽車和電池組,為該地區創造數千個就業機會。愛默生和蔡澈表示,柏林的戰略位置,加上其熟練的勞動力和強大的基礎設施,使其成為擴張的理想選擇。新的超級工廠旨在滿足歐洲對電動汽車不斷增長的需求,併為可持續未來做出貢獻。大眾汽車(Volkswagen)首席執行官赫伯特·迪斯(Herbert Diess)對這一消息表示歡迎,稱更多的合作將有利於汽車行業向電動出行的轉型。
回答:
{
"people": ["Adamson Emerson", "Dieter Zetsche", "Herbert Diess"],
"organizations": ["Faraday", "Daimler AG", "Volkswagen"],
"locations": ["Berlin", "Europe"]
}
🔧 技術細節
在編輯距離較小的數據集(如基於數學的數據集)中,標準DPO損失可能導致模型對首選示例的似然性降低,只要首選和非首選類之間的相對概率增加。基於這些見解,我們設計了DPOP,一種新的損失函數和訓練過程,避免了這種失效模式。令人驚訝的是,我們還發現DPOP在各種數據集和下游任務中都優於DPO,包括完成之間編輯距離較大的數據集。
📄 許可證
本項目使用其他許可證,具體名稱為tongyi-qianwen-license-agreement。
📖 引用
如果您使用了本倉庫中的數據、模型或方法,請引用以下論文:
@article{pal2024smaug,
title={Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive},
author={Pal, Arka and Karkhanis, Deep and Dooley, Samuel and Roberts, Manley and Naidu, Siddartha and White, Colin},
journal={arXiv preprint arXiv:2402.13228},
year={2024}
}