U

URM LLaMa 3.1 8B

由LxzGordon開發
URM-LLaMa-3.1-8B是一個具備不確定性感知能力的獎勵模型,用於改進大語言模型的對齊效果。
下載量 4,688
發布時間 : 9/12/2024

模型概述

該模型由基礎模型和具有不確定性感知能力的屬性特定值頭組成,採用兩階段訓練(屬性迴歸和門控層學習),能夠提供更可靠的獎勵信號。

模型特點

不確定性感知
模型能夠估計獎勵信號的不確定性,低不確定性的信號更可靠,帶來更好的對齊效果。
兩階段訓練
第一階段進行屬性迴歸訓練,第二階段學習門控層組合多屬性分數。
門控層學習
通過學習門控層動態組合多屬性分數,而非採用固定權重。

模型能力

文本質量評估
獎勵信號生成
不確定性估計
多屬性評分

使用案例

大語言模型對齊
響應質量評估
評估AI助手生成響應的質量,包括幫助性、正確性等維度。
如圖表所示,使用不確定性估計能帶來更好的對齊效果。
強化學習
獎勵模型
為強化學習訓練提供更可靠的獎勵信號。
低不確定性的獎勵信號能提高訓練穩定性。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase