S

Smaug 34B V0.1

由abacusai開發
基於jondurbin/bagel-34b-v0.2微調的大語言模型,採用新型DPO-Positive(DPOP)技術優化偏好學習
下載量 2,694
發布時間 : 1/25/2024

模型概述

Smaug-34B-v0.1是一個34B參數的大語言模型,通過DPOP技術改進標準DPO的缺陷,在數學推理和通用任務中表現優異。

模型特點

DPOP優化技術
通過新型DPO-Positive損失函數解決標準DPO在編輯距離小的任務中的性能下降問題
多領域性能提升
在ARC、HellaSwag、MetaMath等多樣化數據集上表現優異
開源技術棧
完整訓練細節和數據集已通過論文開源,支持社區持續優化

模型能力

複雜文本生成
數學問題求解
常識推理
開放域問答
真實性回答生成

使用案例

教育
數學輔導
幫助學生解決GSM8K等數學問題
GSM8K得分72.18
研究
偏好學習研究
作為DPOP技術的基準模型
在多項任務中優於標準DPO
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase