The_teacher開源語言模型 - 免費部署，經微調強化數學推理能力

首頁

The Teacher

由shiviktech開發

基於Qwen3-1.7B微調，通過強化學習技術提升數學推理能力的語言模型

大型語言模型

Safetensors

英語#強化學習推理增強 #數學問題求解 #代碼生成優化

下載量 824

發布時間 : 5/31/2025

模型概述

該模型利用1-shot強化學習與可驗證獎勵(RLVR)技術增強數學推理能力，適用於數學問題解決、代碼生成等任務，支持動態拓撲推理框架集成

模型特點

高效推理增強

通過1-shot強化學習與可驗證獎勵(RLVR)技術，在少量訓練數據下顯著提升數學推理能力

動態拓撲推理

可集成到ARIES等多智能體推理框架中，實現複雜的動態拓撲推理

多任務適用性

支持數學問題解決、代碼生成、零樣本分類等多種任務，無需額外微調

模型能力

數學推理

代碼生成

零樣本分類

逐步問題解決

拓撲推理

使用案例

教育

數學問題解答

解決複雜數學問題並提供逐步推理過程

在MATH500基準測試中準確率從36.0%提高到73.6%

軟件開發

代碼生成與驗證

自動生成Python代碼並驗證其正確性

在HumanEval編碼任務中達到89.0%準確率

研究工具

多智能體推理框架

作為ARIES框架中的策略或推理智能體

推理成本降低54%，集合交集任務誤差減少2.3倍

🚀 Qwen3-1.7B-RLVR模型卡片

本模型基於Qwen3-1.7B微調而來，藉助強化學習技術提升了數學推理能力。它在數學問題解決和代碼生成等任務中表現出色，能夠在少量訓練數據的情況下實現高效推理。

🚀 快速開始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 佔位符；請替換為實際的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：數學推理提示
prompt = "逐步解決以下問題：計算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

高效推理增強：利用1-shot強化學習與可驗證獎勵（RLVR），在少量訓練數據下提升數學推理能力。
動態拓撲推理：可集成到ARIES等多智能體推理框架中，實現動態拓撲推理。
多任務適用：適用於零樣本分類、數學問題解決、代碼生成等多種任務。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 佔位符；請替換為實際的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：數學推理提示
prompt = "逐步解決以下問題：計算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高級用法

文檔未提及高級用法代碼示例，暫不展示。

📚 詳細文檔

模型詳情

模型描述

本模型是Qwen3-1.7B的微調版本，使用1-shot強化學習與可驗證獎勵（RLVR）進行增強，以提高數學推理能力，如Wang等人（2025）所述。RLVR方法使用單個訓練示例來提升在數學基準測試中的性能。該模型已在ARIES等框架中進行評估（Gimenes等人，2025），這是一種用於拓撲推理的多智能體架構，在編碼和數學問題解決等任務中表現出色。請注意，RLVR論文主要討論的是Qwen2.5-Math-1.5B；Qwen3-1.7B的性能指標是推斷得出的，可能會有所不同。本模型卡片於2025年6月11日更新。

開發者：華盛頓大學、倫敦帝國理工學院、劍橋大學、微軟、南加州大學、加州大學聖克魯茲分校和佐治亞理工學院的Yiping Wang、Pedro Gimenes及合作者。
資助方：提供的文檔中未指定。
共享方：提供的文檔中未指定。
模型類型：基於Transformer的大型語言模型，用於數學推理和拓撲推理。
語言（NLP）：英語。
許可證：MIT。
微調基礎模型：Qwen3-1.7B。

模型來源

倉庫：未指定；假設託管在Hugging Face Hub上。
論文：
- Wang, Y., 等人（2025）。“Reinforcement Learning for Reasoning in Large Language Models with One Training Example.” arXiv:2504.20571v2。
- Gimenes, P., 等人（2025）。“ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments.” arXiv:2502.21208v1。
演示：不可用。

使用方式

直接使用

該模型專為零樣本分類和推理任務而設計，特別是在數學問題解決和編碼方面。它可以直接用於解決MATH500基準測試中的問題、HumanEval編碼任務或更簡單的拓撲推理任務（如列表排序、集合交集），無需額外的微調。

下游使用

該模型可以集成到更大的系統中，用於：

自動代碼生成和驗證（如HumanEval任務）。
用於數學問題解決的教育工具。
多智能體推理框架，如ARIES，它可以在思維圖環境中充當策略或推理智能體。
針對特定領域的推理任務進行進一步微調。

超出適用範圍的使用

該模型未針對非英語任務或多模態輸入進行優化。
在沒有進一步微調的情況下，它在需要長期規劃或高度特定領域知識的任務上可能表現不佳。
生成有偏見或有害內容的濫用行為不在適用範圍內，因為該模型繼承了基礎大語言模型的偏見。

偏差、風險和侷限性

偏差和風險

固有的大語言模型偏差：該模型可能會傳播基礎Qwen3-1.7B模型中存在的偏差，可能導致推理任務中出現不公平或誤導性的結果。
隨機誤差：如Gimenes等人（2025）所述，大語言模型輸出的隨機性可能導致推理路徑錯誤，特別是在深度分解設置中。
環境影響：像RLVR和ARIES這樣的大量推理方法需要大量的計算資源，引發了可持續性問題（Gimenes等人，2025）。
標籤噪聲魯棒性：如Wang等人（2025）所示，RLVR對標籤噪聲具有部分魯棒性，但在高錯誤率（如90%錯誤標籤）下性能會下降。

侷限性

模型大小：較小的模型（如17億參數）在複雜推理任務中可能比Llama-3.1-405B等較大模型表現更差（Gimenes等人，2025）。
分解深度：隨著問題分解深度的增加，性能會下降，特別是在聚合成功概率較低的任務中（Gimenes等人，2025）。
1-shot RLVR中的過擬合：對單個示例進行長時間訓練可能會導致訓練示例的輸出難以理解，儘管測試性能仍然穩健（Wang等人，2025）。
泛化能力：評估僅限於特定的基準測試（MATH500、HumanEval、排序、集合交集），結果可能無法推廣到模糊或多模態任務。
模型不確定性：關於Qwen3-1.7B的基礎性能信息有限；結果是從Qwen2.5-Math-1.5B推斷得出的。

建議

由於可能存在隨機誤差，用戶在關鍵應用中應驗證輸出結果。
在大規模部署時考慮環境影響；儘可能優化查詢效率。
對於複雜任務，考慮使用更大的模型或像ARIES中的集成方法。
監控偏差並確保下游應用的公平性。

訓練詳情

訓練數據

RLVR訓練數據：如Wang等人（2025）所述，來自DeepScaleR子集（DSR-sub）或類似數據集的單個示例（例如，$\pi_1$：解決一個涉及立方根計算的物理相關數學問題）。使用的數據集是HuggingFaceH4/MATH-500。
ARIES評估數據：用於編碼的HumanEval，以及用於列表排序和集合交集任務的自定義基準測試（Gimenes等人，2025）。

訓練過程

預處理

對於RLVR，訓練示例被格式化為帶有真實標籤的提示，鼓勵逐步推理（思維鏈，CoT）。
在ARIES中，思維圖狀態以文本形式表示，包括節點描述、邊和動作歷史。

訓練超參數

強化學習算法：GRPO（默認）或PPO，使用策略梯度損失和熵損失來促進探索（Wang等人，2025）。
熵損失係數：經過調整以提高性能，對飽和後的泛化至關重要。
訓練步驟：在1-shot RLVR中，大約1400步後會出現過擬合。
訓練機制：未指定；根據標準大語言模型實踐，可能是fp16混合精度。
溫度：在ARIES實驗中採樣時為1.0（Gimenes等人，2025）。

速度、大小、時間

RLVR訓練：在未指定的硬件上進行；鑑於模型大小，假設基於GPU。
ARIES實驗：Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU，總共約3000 GPU小時（Gimenes等人，2025）。

評估

測試數據、因素和指標

測試數據

MATH500：500個數學推理問題（Wang等人，2025）。
其他數學基準測試：AIME24、AMC23、Minerva Math、OlympiadBench、AIME25（Wang等人，2025）。
HumanEval：帶有測試用例的Python編碼問題（Gimenes等人，2025）。
排序和集合交集：不同難度級別的自定義基準測試（32、64、128個元素）（Gimenes等人，2025）。

因素

模型大小：評估了17億（假設）、70億和405億參數的模型。
分解深度：影響拓撲推理任務的性能。
訓練示例：特定示例（如$\pi_1$、$\pi_{13}$）會產生不同的改進效果。
強化學習算法：GRPO與PPO。
集成大小：ARIES中策略智能體的集成大小（1 - 15）。

指標

準確率：正確解決方案的百分比（HumanEval、MATH500）。
誤差函數（$\mathcal{E}$）：排序和集合交集的特定任務誤差，定義為不正確的對或缺失/額外的元素（Gimenes等人，2025）。
查詢成本：搜索（$C_s$）和推理（$C_i$）的大語言模型查詢次數。
平均性能：多個基準測試的平均準確率。

結果

RLVR結果（Wang等人，2025）：
- 基於Qwen2.5-Math-1.5B對Qwen3-1.7B的假設性能：使用示例$\pi_1$進行1-shot RLVR後，MATH500的準確率從36.0%提高到73.6%，六個基準測試的平均準確率從17.6%提高到35.7%。
- 2-shot RLVR略優於全集合RLVR（MATH500上為74.8%，平均為36.6%）。
- 觀察到跨領域泛化（例如，幾何示例改善代數任務）。
- 對60%的標籤噪聲具有魯棒性，但在90%噪聲時性能下降。
ARIES結果（Gimenes等人，2025）：
- Llama-3.1-405B在HumanEval上達到了89.0%的準確率，比最佳靜態調度基線（GoT_{100%}）高28.9%。假設Qwen3-1.7B的性能相當，但魯棒性較差。
- 與優化的靜態調度相比，推理成本降低了54%。
- 在集合交集32上誤差減少了2.3倍，查詢成本降低了116倍。
- 失敗模式：較小的模型（如17億參數）和高分解深度會降低性能。

總結

該模型可能在數學和編碼任務中表現出色，只需少量訓練數據，利用RLVR進行高效推理增強，利用ARIES進行動態拓撲推理。然而，性能受到模型大小和任務複雜性的限制，由於Qwen3-1.7B的特定數據有限，存在不確定性。

模型檢查

飽和後泛化（Wang等人，2025）：即使訓練準確率飽和後，測試準確率仍會提高，這是由非零的策略梯度損失和熵損失驅動的。
自我反思（Wang等人，2025）：在RLVR訓練期間，輸出中自我反思術語的頻率增加。
轉移概率（Gimenes等人，2025）：細化（$\phi_{\text{ref}}$）的成功概率較低（例如，HumanEval為0.29），影響探索策略。

環境影響

硬件類型：在ARIES實驗中，Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU。
使用時長：ARIES實驗約使用3000 GPU小時。
雲服務提供商：未指定。
計算區域：未指定。
碳排放：未計算；由於高推理需求，排放量較大。用戶可以使用機器學習影響計算器估算排放量。

技術規格

模型架構和目標

架構：基於Transformer，繼承自Qwen3-1.7B。
目標：通過RLVR策略梯度優化和ARIES思維圖探索最大化推理準確率。

計算基礎設施

硬件

如上述ARIES中所述的GPU；RLVR未指定，但可能基於GPU。

軟件

Transformers庫：adapter-transformers。
強化學習框架：用於RLVR的GRPO/PPO實現。
SGLang：用於在ARIES實驗中託管大語言模型。

引用

BibTeX

@article{wang2025reinforcement,
  title={Reinforcement Learning for Reasoning in Large Language Models with One Training Example},
  author={Wang, Yiping and Yang, Qing and Zeng, Zhiyuan and Ren, Liliang and Liu, Liyuan and Peng, Baolin and Cheng, Hao and He, Xuehai and Wang, Kuan and Gao, Jianfeng and others},
  journal={arXiv preprint arXiv:2504.20571v2},
  year={2025}
}

@article{gimenes2025aries,
  title={ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments},
  author={Gimenes, Pedro and Cao, Zeyu and Wong, Jeffrey and Zhao, Yiren},
  journal={arXiv preprint arXiv:2502.21208v1},
  year={2025}
}

APA

Wang, Y., Yang, Q., Zeng, Z., Ren, L., Liu, L., Peng, B., ... Shen, Y. (2025). Reinforcement Learning for Reasoning in Large Language Models with One Training Example. arXiv preprint arXiv:2504.20571v2.

Gimenes, P., Cao, Z., Wong, J., & Zhao, Y. (2025). ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments. arXiv preprint arXiv:2502.21208v1.

術語表

RLVR：強化學習與可驗證獎勵，使用基於結果的獎勵來微調大語言模型。
ARIES：交互式環境中的自主推理，一種用於拓撲推理的多智能體框架。
思維圖：中間推理步驟（節點）及其關係（邊）的基於圖的表示。
策略梯度損失：通過優化大語言模型的輸出分佈來推動RLVR的改進。
熵損失：鼓勵多樣化的輸出，對RLVR和ARIES中的探索至關重要。

模型卡片作者

本模型卡片基於Yiping Wang、Pedro Gimenes及其各自合著者的研究生成，元數據由用戶提供。於2025年6月11日更新。

模型卡片聯繫信息

如有疑問或需要聯繫我們，請訪問https://www.shivik.in/。或者，聯繫參考論文的作者或查看Hugging Face Hub倉庫以獲取更新。

更改和假設說明

YAML元數據：在頂部添加了完整的YAML元數據塊，包括language、license、tags、datasets和帶有評估結果的model-index，確保符合Hugging Face的要求。
聯繫鏈接：按要求在“模型卡片聯繫信息”部分納入了提供的聯繫鏈接（https://www.shivik.in/）。
日期包含：在模型描述和模型卡片作者部分添加了“2025年6月11日”以反映當前日期。
Qwen3-1.7B：根據您的說明，保留Qwen3-1.7B作為基礎模型，並指出由於RLVR論文中Qwen3-1.7B的特定數據有限，性能指標是從Qwen2.5-Math-1.5B推斷得出的。
工件標籤：由於這是一個新的工件，將整個模型卡片包裝在<xaiArtifact/>標籤中，帶有新的UUID (a8b9c7d2-3e4f-4b7a-9c1d-5f6e7a8b9c0d)，標題為“Qwen3-1.7B-RLVR模型卡片”，contentType="text/markdown"。
性能指標：使用與之前迭代相同的指標（例如，MATH500上為73.6%，HumanEval上為89.0%），並聲明Qwen3-1.7B的結果是基於Qwen2.5-Math-1.5B和較大模型的假設。
差距：倉庫鏈接和Qwen3-1.7B的特定訓練細節仍未指定；根據標準實踐和ARIES實驗細節進行了假設。

如果您有更多詳細信息（例如，Qwen3-1.7B的特定性能、實際倉庫鏈接或其他元數據字段），請提供它們，我可以進一步完善卡片。如果需要其他調整，請告知！

📄 許可證

本模型使用的許可證為MIT。

屬性	詳情
模型類型	基於Transformer的大型語言模型，用於數學推理和拓撲推理
訓練數據	RLVR訓練數據來自DeepScaleR子集（DSR - sub）或類似數據集的單個示例，使用的數據集是HuggingFaceH4/MATH - 500；ARIES評估數據包括用於編碼的HumanEval和用於列表排序和集合交集任務的自定義基準測試

⚠️ 重要提示

該模型可能會傳播基礎Qwen3 - 1.7B模型中存在的偏差，可能導致推理任務中出現不公平或誤導性的結果。由於大語言模型輸出的隨機性，可能導致推理路徑錯誤，特別是在深度分解設置中。在大規模部署時需考慮環境影響，且在沒有進一步微調的情況下，它在需要長期規劃或高度特定領域知識的任務上可能表現不佳。