The_techer開源模型 - 基於Qwen3微調，強化數學推理與編碼能力

首頁

The Techer

由shiviklabs開發

基於Qwen3-1.7B微調的版本，通過1-shot強化學習與可驗證獎勵（RLVR）方法增強了數學推理能力，在數學基準測試和編碼任務中表現出色。

大型語言模型

Safetensors

#1-shot強化學習 #數學推理增強 #動態拓撲推理

下載量 850

發布時間 : 5/31/2025

模型概述

該模型是Qwen3-1.7B的微調版本，專注於數學推理和編碼任務，採用1-shot RLVR方法進行優化，適用於零樣本分類和推理任務。

模型特點

增強數學推理

使用1-shot RLVR方法，僅用一個訓練示例就能顯著提升在數學基準測試中的表現。

多任務適用

可用於零樣本分類、數學問題解決、編碼生成等多種任務，無需額外微調。

動態拓撲推理

能集成到多智能體推理框架ARIES中，進行復雜的動態拓撲推理任務。

模型能力

數學問題解決

代碼生成

零樣本分類

逐步推理（思維鏈）

多智能體推理

使用案例

教育

數學問題解決工具

用於解決MATH500等數學基準測試中的問題，幫助學生理解複雜數學概念。

在MATH500上準確率從36.0%提高到73.6%

軟件開發

自動化代碼生成

生成Python函數等代碼片段，適用於快速原型開發。

在HumanEval任務中表現優異

研究

多智能體推理框架

集成到ARIES框架中，用於動態拓撲推理任務。

推理成本降低54%

🚀 Qwen3-1.7B-RLVR模型卡片

本模型是基於Qwen3-1.7B微調的版本，通過1-shot強化學習與可驗證獎勵（RLVR）方法增強了數學推理能力。它在數學基準測試和編碼任務中表現出色，可直接用於零樣本分類和推理任務。

🚀 快速開始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 佔位符；請替換為實際的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：數學推理提示
prompt = "逐步解決以下問題：計算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

增強數學推理：使用1-shot RLVR方法，僅用一個訓練示例就能提升在數學基準測試中的表現。
多任務適用：可用於零樣本分類、數學問題解決、編碼生成等多種任務。
動態拓撲推理：能集成到多智能體推理框架ARIES中，進行動態拓撲推理。

📦 安裝指南

文檔未提及具體安裝步驟，可參考Hugging Face Hub上的相關說明進行安裝。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 佔位符；請替換為實際的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：數學推理提示
prompt = "逐步解決以下問題：計算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高級用法

# 可將模型集成到更大的系統中，如自動化代碼生成和驗證系統
# 以下是一個簡單的示例，展示如何將模型用於自動化代碼生成任務
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：代碼生成提示
prompt = "生成一個Python函數，用於計算兩個數的和。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 詳細文檔

模型詳情

模型描述

本模型是Qwen3-1.7B的微調版本，使用1-shot強化學習與可驗證獎勵（RLVR）方法增強了數學推理能力，如Wang等人（2025）所述。RLVR方法使用單個訓練示例來提升在數學基準測試中的表現。該模型已在ARIES等框架中進行了評估，展示了在編碼和數學問題解決等任務中的強大性能。需要注意的是，RLVR論文主要討論的是Qwen2.5-Math-1.5B；Qwen3-1.7B的性能指標是推斷得出的，可能會有所不同。本模型卡片於2025年6月11日更新。

開發者：Yiping Wang、Pedro Gimenes以及來自華盛頓大學、倫敦帝國理工學院、劍橋大學、微軟、南加州大學、加州大學聖克魯茲分校和佐治亞理工學院的合作者。
資助方：文檔中未提及。
共享方：文檔中未提及。
模型類型：基於Transformer的大型語言模型，用於數學推理和拓撲推理。
語言：英語。
許可證：MIT。
微調基礎模型：Qwen3-1.7B。

模型來源

倉庫：未指定；假設託管在Hugging Face Hub上。
論文：
- Wang, Y., et al. (2025). "Reinforcement Learning for Reasoning in Large Language Models with One Training Example." arXiv:2504.20571v2.
- Gimenes, P., et al. (2025). "ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments." arXiv:2502.21208v1.
演示：不可用。

使用場景

直接使用

該模型設計用於零樣本分類和推理任務，特別是在數學問題解決和編碼方面。無需額外微調，即可直接用於解決MATH500基準測試中的問題、HumanEval編碼任務或更簡單的拓撲推理任務（如列表排序、集合交集）。

下游使用

該模型可以集成到更大的系統中，用於：

自動化代碼生成和驗證（如HumanEval任務）。
數學問題解決的教育工具。
多智能體推理框架，如ARIES，在其中它可以作為策略或推理智能體在思維圖環境中發揮作用。
進一步微調以用於特定領域的推理任務。

超出適用範圍的使用

該模型未針對非英語任務或多模態輸入進行優化。
在需要長期規劃或高度特定領域知識的任務中，如果沒有進一步微調，可能表現不佳。
生成有偏見或有害內容的濫用行為不在適用範圍內，因為該模型繼承了基礎大語言模型的偏見。

偏差、風險和侷限性

偏差和風險

固有大語言模型偏差：該模型可能會傳播基礎Qwen3-1.7B模型中存在的偏差，可能導致推理任務中出現不公平或誤導性的結果。
隨機誤差：如Gimenes等人（2025）所述，大語言模型輸出的隨機性可能導致推理路徑錯誤，特別是在深度分解的情況下。
環境影響：像RLVR和ARIES這樣的大量推理方法需要大量的計算資源，引發了可持續性問題（Gimenes等人，2025）。
標籤噪聲魯棒性：RLVR對標籤噪聲有一定的魯棒性，但當錯誤率較高（如90%錯誤標籤）時，性能會下降，如Wang等人（2025）所示。

侷限性

模型大小：較小的模型（如17億參數）在複雜推理任務中可能不如Llama-3.1-405B等較大模型表現好（Gimenes等人，2025）。
分解深度：在拓撲推理任務中，性能會隨著問題分解深度的增加而下降（Gimenes等人，2025）。
1-shot RLVR中的過擬合：在單個示例上長時間訓練可能會導致訓練示例的輸出難以理解，儘管測試性能仍然穩健（Wang等人，2025）。
泛化能力：評估僅限於特定的基準測試（MATH500、HumanEval、排序和集合交集），結果可能無法推廣到模糊或多模態任務。
模型不確定性：關於Qwen3-1.7B的基礎性能信息有限；結果是從Qwen2.5-Math-1.5B推斷得出的。

建議

由於可能存在隨機誤差，用戶在關鍵應用中應驗證輸出結果。
在大規模部署時考慮環境影響；儘可能優化查詢效率。
對於複雜任務，考慮使用更大的模型或像ARIES中的集成方法。
監測偏差並確保下游應用的公平性。

訓練詳情

訓練數據

RLVR訓練數據：來自DeepScaleR子集（DSR-sub）或類似數據集的單個示例（如$\pi_1$：解決一個涉及立方根計算的物理相關數學問題），如Wang等人（2025）所述。使用的數據集是HuggingFaceH4/MATH-500。
ARIES評估數據：用於編碼的HumanEval，以及用於列表排序和集合交集任務的自定義基準測試（Gimenes等人，2025）。

訓練過程

預處理

對於RLVR，訓練示例被格式化為帶有真實標籤的提示，鼓勵逐步推理（思維鏈，CoT）。
在ARIES中，思維圖狀態以文本形式表示，包括節點描述、邊和動作歷史。

訓練超參數

強化學習算法：GRPO（默認）或PPO，使用策略梯度損失和熵損失來促進探索（Wang等人，2025）。
熵損失係數：經過調整以提高性能，對飽和後的泛化至關重要。
訓練步數：在1-shot RLVR中，大約1400步後會出現過擬合。
訓練機制：未指定；根據標準大語言模型實踐，可能是fp16混合精度。
溫度：在ARIES實驗中，採樣溫度為1.0（Gimenes等人，2025）。

速度、大小、時間

RLVR訓練：在未指定的硬件上進行；鑑於模型大小，假設基於GPU。
ARIES實驗：Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU，總共約3000 GPU小時（Gimenes等人，2025）。

評估

測試數據、因素和指標

測試數據

MATH500：500個數學推理問題（Wang等人，2025）。
其他數學基準測試：AIME24、AMC23、Minerva Math、OlympiadBench、AIME25（Wang等人，2025）。
HumanEval：帶有測試用例的Python編碼問題（Gimenes等人，2025）。
排序和集合交集：不同難度級別的自定義基準測試（32、64、128個元素）（Gimenes等人，2025）。

因素

模型大小：評估了17億（假設）、70億和405億參數的模型。
分解深度：影響拓撲推理任務的性能。
訓練示例：特定示例（如$\pi_1$、$\pi_{13}$）會產生不同的改進效果。
強化學習算法：GRPO與PPO。
集成大小：ARIES中策略智能體的集成大小（1 - 15）。

指標

準確率：正確解決方案的百分比（HumanEval、MATH500）。
誤差函數（$\mathcal{E}$）：排序和集合交集任務的特定誤差，定義為不正確的對或缺失/額外的元素（Gimenes等人，2025）。
查詢成本：搜索（$C_s$）和推理（$C_i$）的大語言模型查詢次數。
平均性能：多個基準測試的平均準確率。

結果

RLVR結果（Wang等人，2025）：
- 基於Qwen2.5-Math-1.5B推斷的Qwen3-1.7B性能：使用示例$\pi_1$進行1-shot RLVR後，在MATH500上從36.0%提高到73.6%，在六個基準測試中的平均準確率從17.6%提高到35.7%。
- 2-shot RLVR略優於全集合RLVR（MATH500上為74.8%，平均為36.6%）。
- 觀察到跨領域泛化（例如，幾何示例改善了代數任務）。
- 對60%的標籤噪聲具有魯棒性，但在90%噪聲時性能下降。
ARIES結果（Gimenes等人，2025）：
- Llama-3.1-405B在HumanEval上達到了89.0%的準確率，比最佳靜態調度基線（GoT_{100%}）高28.9%。假設Qwen3-1.7B的性能相當，但魯棒性較差。
- 與優化的靜態調度相比，推理成本降低了54%。
- 在集合交集32任務上，誤差降低了2.3倍，查詢成本降低了116倍。
- 失敗模式：較小的模型（如17億參數）和高分解深度會降低性能。

總結

該模型可能在使用最少訓練數據的數學和編碼任務中表現出色，利用RLVR進行高效的推理增強，利用ARIES進行動態拓撲推理。然而，性能受到模型大小和任務複雜性的限制，並且由於Qwen3-1.7B的特定數據有限，存在不確定性。

模型檢查

飽和後泛化（Wang等人，2025）：即使訓練準確率飽和後，測試準確率仍會提高，這是由非零的策略梯度損失和熵損失驅動的。
自我反思（Wang等人，2025）：在RLVR訓練期間，輸出中自我反思術語的頻率增加。
轉移概率（Gimenes等人，2025）：細化（$\phi_{\text{ref}}$）的成功概率較低（例如，HumanEval為0.29），影響探索策略。

環境影響

硬件類型：ARIES實驗中，Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU。
使用時長：ARIES實驗約使用3000 GPU小時。
雲服務提供商：未指定。
計算區域：未指定。
碳排放：未計算；由於高推理需求，排放量較大。用戶可以使用機器學習影響計算器估算排放量。

技術規格

模型架構和目標

架構：基於Transformer，繼承自Qwen3-1.7B。
目標：通過RLVR策略梯度優化和ARIES思維圖探索最大化推理準確率。

計算基礎設施

硬件

ARIES使用上述GPU；RLVR未指定，但可能基於GPU。

軟件

Transformers庫：adapter-transformers。
強化學習框架：RLVR使用GRPO/PPO實現。
SGLang：用於在ARIES實驗中託管大語言模型。

引用

BibTeX

@article{wang2025reinforcement,
  title={Reinforcement Learning for Reasoning in Large Language Models with One Training Example},
  author={Wang, Yiping and Yang, Qing and Zeng, Zhiyuan and Ren, Liliang and Liu, Liyuan and Peng, Baolin and Cheng, Hao and He, Xuehai and Wang, Kuan and Gao, Jianfeng and others},
  journal={arXiv preprint arXiv:2504.20571v2},
  year={2025}
}

@article{gimenes2025aries,
  title={ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments},
  author={Gimenes, Pedro and Cao, Zeyu and Wong, Jeffrey and Zhao, Yiren},
  journal={arXiv preprint arXiv:2502.21208v1},
  year={2025}
}

APA

Wang, Y., Yang, Q., Zeng, Z., Ren, L., Liu, L., Peng, B., ... Shen, Y. (2025). Reinforcement Learning for Reasoning in Large Language Models with One Training Example. arXiv preprint arXiv:2504.20571v2.

Gimenes, P., Cao, Z., Wong, J., & Zhao, Y. (2025). ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments. arXiv preprint arXiv:2502.21208v1.

術語表

RLVR：強化學習與可驗證獎勵，使用基於結果的獎勵來微調大語言模型。
ARIES：交互式環境中的自主推理，一種用於拓撲推理的多智能體框架。
思維圖：基於圖的中間推理步驟（節點）及其關係（邊）的表示。
策略梯度損失：通過優化大語言模型的輸出分佈來推動RLVR的改進。
熵損失：鼓勵多樣化的輸出，對RLVR和ARIES中的探索至關重要。

模型卡片作者

本模型卡片基於Yiping Wang、Pedro Gimenes及其各自的合著者的研究生成，元數據由用戶提供。於2025年6月11日更新。

模型卡片聯繫方式

如有問題或想聯繫我們，請訪問https://www.shivik.in/。或者，聯繫引用論文的作者或查看Hugging Face Hub倉庫以獲取更新。

更改和假設說明

YAML元數據：在頂部添加了完整的YAML元數據塊，包括language、license、tags、datasets和帶有評估結果的model-index，確保符合Hugging Face的要求。
聯繫鏈接：根據要求，在“模型卡片聯繫方式”部分加入了提供的聯繫鏈接（https://www.shivik.in/）。
日期包含：在模型描述和模型卡片作者部分添加了“2025年6月11日”，以反映當前日期。
Qwen3-1.7B：根據您的說明，保留Qwen3-1.7B作為基礎模型，並指出由於RLVR論文中Qwen3-1.7B的特定數據有限，性能指標是從Qwen2.5-Math-1.5B推斷得出的。
工件標籤：由於這是一個新的工件，將整個模型卡片用<xaiArtifact/>標籤包裹，並使用新的UUID (a8b9c7d2-3e4f-4b7a-9c1d-5f6e7a8b9c0d)，標題為“Qwen3-1.7B-RLVR模型卡片”，contentType="text/markdown"。
性能指標：使用與之前版本相同的指標（例如，MATH500上為73.6%，HumanEval上為89.0%），並聲明Qwen3-1.7B的結果是基於Qwen2.5-Math-1.5B和較大模型推斷得出的。
差距：倉庫鏈接和Qwen3-1.7B的特定訓練細節仍未指定；根據標準實踐和ARIES實驗細節進行了假設。