T

Thinkedit Deepseek Llama3 8b

由cesun開發
ThinkEdit是一種輕量級權重編輯方法,通過識別並編輯少量注意力頭來緩解推理模型生成過於簡短思維鏈的問題,提升推理準確性。
下載量 55
發布時間 : 3/11/2025

模型概述

該模型針對大語言模型在推理任務中生成的思維鏈(CoT)過於簡短的問題,通過可解釋的權重編輯方法,僅修改約0.1%的參數,顯著提升在數學推理等任務上的表現。

模型特點

輕量級權重編輯
僅識別並編輯約2%的'簡短推理'注意力頭和0.1%的總參數,實現高效優化
可解釋性編輯
通過分析注意力頭的激活模式,定位導致簡短推理的特定方向並移除
性能提升
在多個數學推理基準測試中顯著提升準確率,特別是在簡短推理案例上表現突出
推理長度優化
有效增加模型生成的推理步驟長度,提供更詳細的解題過程

模型能力

數學問題求解
複雜推理任務處理
生成詳細思維鏈
教育領域應用

使用案例

教育
數學題分步解答
為學生提供詳細的數學問題解決步驟
在GSM8K數學題集上準確率提升6.71%
考試題目解析
生成標準化考試題目的詳細解析過程
在MMLU小學數學測試中準確率提升0.07%
研究
模型可解釋性研究
研究注意力頭與推理行為的關係
識別出2%的關鍵注意力頭
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase