ThinkEdit-deepseek-qwen-14bオープンソースモデル - 推論思考チェーンを最適化し、推論精度を向上させる

Home

Thinkedit Deepseek Qwen 14b

Developed by cesun

ThinkEditは軽量な重み編集手法で、少数のアテンションヘッドを特定・編集することで、大規模言語モデルが推論タスクで過度に短い思考連鎖を生成する問題を緩和し、推論精度を向上させます。

大規模言語モデル

Transformers

Open Source License:Other #推論最適化 #重み編集 #数学的推論

Downloads 46

Release Time : 3/14/2025

Model Overview

このモデルはdeepseek-qwen-14bを改良したもので、推論モデルが過度に短い思考連鎖を生成することで生じる精度低下問題の解決に焦点を当てています。解釈可能な重み編集技術により、数学的推論などのタスクでのパフォーマンスを大幅に向上させます。

Model Features

軽量重み編集

全パラメータの約0.1%のみを編集し、少数のアテンションヘッドを変更することで性能向上を実現

短縮推論緩和

モデルが生成する過度に短い思考連鎖の問題に特化して最適化

解釈可能性

約2%の'短縮推論'アテンションヘッドを特定可能で、編集方向が明確

性能向上

複数の数学的推論データセットで精度が大幅に向上、特に短縮推論ケースで顕著

Model Capabilities

数学問題解決

複雑な推論タスク処理

思考連鎖生成

教育分野への応用

Use Cases

教育

数学問題解答

小学校から高校レベルの数学問題を解決

GSM8Kデータセットで93.5%の精度

学術評価

MMLU小学校数学評価に使用

精度96.53%に向上

研究

モデル行動研究

大規模言語モデルの推論タスクにおける行動パターンを研究

短縮推論を引き起こす特定のアテンションヘッドを特定

🚀 ThinkEdit-deepseek-qwen-14b

ThinkEdit-deepseek-qwen-14bは、推論モデルにおける過度に短い思考を軽減するための軽量な重み編集手法「ThinkEdit」を適用したモデルです。この手法は、特定の注意ヘッドを識別し、わずかなパラメータを編集することで、モデルの性能を向上させます。

🚀 クイックスタート

このリポジトリは、ThinkEdit-deepseek-qwen-14bに関する情報を提供しています。また、ThinkEdit-deepseek-qwen-1.5bおよびThinkEdit-deepseek-llama3-8bのThinkEditバージョンも公開しています。

著者: Chung-En Sun, Ge Yan, Tsui-Wei Weng 論文: ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models コード: https://github.com/Trustworthy-ML-Lab/ThinkEdit

✨ 主な機能

推論強化モデルは、時に過度に短い抽象的な思考過程（CoT）推論を生成することで失敗し、精度が低下することがあります。ThinkEditは、以下のような軽量な重み編集手法です。

約2%の「短い推論」注意ヘッドを識別する
総パラメータの約0.1%のみを編集する
出力から「短い推論」の方向を削除する
特に短い推論トレースのケースで性能を向上させる

📚 ドキュメント

1. 全体的な精度

モデル	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	90.80 ± 0.36	95.08 ± 0.65	96.32 ± 0.35	90.25 ± 0.72	91.48 ± 0.55
ThinkEdit-deepseek-qwen-14b	93.50 ± 0.31	96.53 ± 0.54	96.50 ± 0.46	91.15 ± 0.59	91.78 ± 0.58
deepseek-llama3-8b	82.26 ± 0.91	96.01 ± 0.62	93.46 ± 0.84	85.49 ± 0.83	87.26 ± 1.16
ThinkEdit-deepseek-llama3-8b	88.97 ± 0.78	96.08 ± 0.86	94.12 ± 0.47	85.91 ± 0.48	87.60 ± 0.81
deepseek-qwen-1.5b	79.15 ± 1.08	68.52 ± 1.56	93.00 ± 0.33	75.48 ± 0.90	82.22 ± 1.29
ThinkEdit-deepseek-qwen-1.5b	83.34 ± 0.79	86.24 ± 1.12	93.89 ± 0.76	74.94 ± 0.85	82.74 ± 0.77

2. 短い推論ケースでの精度 (Top 5% / 10% / 20%)

モデル	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	96.31 / 95.65 / 92.93	93.89 / 96.22 / 95.60	99.52 / 99.30 / 97.70	89.39 / 94.32 / 96.25	86.40 / 91.40 / 93.50
ThinkEdit-deepseek-qwen-14b	96.62 / 96.03 / 96.12	96.11 / 96.22 / 96.27	100.00 / 99.77 / 98.85	95.76 / 97.65 / 98.07	89.60 / 92.60 / 94.70
deepseek-llama3-8b	88.92 / 87.18 / 85.82	97.22 / 96.49 / 96.80	97.14 / 94.88 / 94.83	78.64 / 88.79 / 93.41	82.00 / 81.40 / 88.30
ThinkEdit-deepseek-llama3-8b	97.08 / 95.27 / 93.95	97.78 / 98.65 / 97.87	100.00 / 99.30 / 98.62	95.61 / 96.89 / 97.12	92.80 / 93.60 / 94.40
deepseek-qwen-1.5b	88.46 / 87.48 / 85.02	62.78 / 62.16 / 60.53	97.62 / 95.12 / 93.91	91.52 / 95.00 / 95.72	82.40 / 89.80 / 93.40
ThinkEdit-deepseek-qwen-1.5b	92.46 / 92.37 / 92.05	77.22 / 80.54 / 79.73	96.19 / 95.81 / 97.36	93.79 / 95.83 / 95.80	92.80 / 94.40 / 94.90

3. 推論長 (Top 5% / 10% / 20% 最短応答)

モデル	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	76.6 / 86.5 / 99.1	65.8 / 72.2 / 80.6	93.7 / 114.3 / 188.6	628.8 / 858.4 / 1125.9	198.7 / 434.3 / 697.0
ThinkEdit-deepseek-qwen-14b	95.4 / 106.3 / 120.2	79.1 / 87.1 / 98.7	125.1 / 150.2 / 243.4	698.5 / 906.6 / 1157.2	270.2 / 492.6 / 733.3
deepseek-llama3-8b	73.0 / 83.1 / 96.6	371.0 / 438.1 / 518.2	80.3 / 97.2 / 130.3	617.9 / 854.9 / 1126.5	159.5 / 357.5 / 644.5
ThinkEdit-deepseek-llama3-8b	93.2 / 106.9 / 127.4	396.5 / 464.2 / 543.2	137.4 / 173.3 / 277.1	791.2 / 954.8 / 1185.1	305.2 / 506.3 / 737.6
deepseek-qwen-1.5b	78.8 / 89.4 / 103.0	61.6 / 68.5 / 77.6	88.8 / 110.3 / 219.7	804.6 / 1017.9 / 1314.0	249.7 / 506.5 / 760.7
ThinkEdit-deepseek-qwen-1.5b	97.2 / 109.4 / 126.3	75.9 / 85.0 / 99.5	127.9 / 174.1 / 416.4	818.0 / 984.5 / 1214.3	435.0 / 612.9 / 800.6

💻 使用例

ThinkEditモデルの使用方法は、元のdeepseek-distilledモデルとまったく同じです。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 引用

@misc{sun2025thinkedit,
      title={ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models}, 
      author={Chung-En Sun and Ge Yan and Tsui-Wei Weng},
      year={2025},
      eprint={2503.22048},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.22048}, 
}