T

Thinkedit Deepseek Qwen 14b

由cesun開發
ThinkEdit是一種輕量級權重編輯方法,通過識別並編輯少量注意力頭,緩解大語言模型在推理任務中生成過度簡短思維鏈的問題,提升推理準確性。
下載量 46
發布時間 : 3/14/2025

模型概述

該模型基於deepseek-qwen-14b改進,專注於解決推理模型因生成過度簡短思維鏈而導致的準確性下降問題。通過可解釋的權重編輯技術,顯著提升在數學推理等任務中的表現。

模型特點

輕量級權重編輯
僅編輯總參數的約0.1%,通過修改少量注意力頭實現性能提升
簡短推理緩解
專門針對模型生成過度簡短思維鏈的問題進行優化
可解釋性
能識別約2%的'簡短推理'注意力頭,編輯方向明確
性能提升
在多個數學推理數據集上顯著提升準確率,特別是在簡短推理案例中

模型能力

數學問題求解
複雜推理任務處理
思維鏈生成
教育領域應用

使用案例

教育
數學問題解答
解決小學數學到高中難度的數學問題
在GSM8K數據集上準確率達93.5%
學術評估
用於MMLU小學數學評估
準確率提升至96.53%
研究
模型行為研究
研究大語言模型在推理任務中的行為模式
識別出導致簡短推理的特定注意力頭
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase