The_teacher开源语言模型 - 免费部署，经微调强化数学推理能力

首页

The Teacher

由 shiviktech 开发

基于Qwen3-1.7B微调，通过强化学习技术提升数学推理能力的语言模型

大型语言模型

Safetensors

英语#强化学习推理增强 #数学问题求解 #代码生成优化

下载量 824

发布时间 : 5/31/2025

模型简介

该模型利用1-shot强化学习与可验证奖励(RLVR)技术增强数学推理能力，适用于数学问题解决、代码生成等任务，支持动态拓扑推理框架集成

模型特点

高效推理增强

通过1-shot强化学习与可验证奖励(RLVR)技术，在少量训练数据下显著提升数学推理能力

动态拓扑推理

可集成到ARIES等多智能体推理框架中，实现复杂的动态拓扑推理

多任务适用性

支持数学问题解决、代码生成、零样本分类等多种任务，无需额外微调

模型能力

数学推理

代码生成

零样本分类

逐步问题解决

拓扑推理

使用案例

教育

数学问题解答

解决复杂数学问题并提供逐步推理过程

在MATH500基准测试中准确率从36.0%提高到73.6%

软件开发

代码生成与验证

自动生成Python代码并验证其正确性

在HumanEval编码任务中达到89.0%准确率

研究工具

多智能体推理框架

作为ARIES框架中的策略或推理智能体

推理成本降低54%，集合交集任务误差减少2.3倍

🚀 Qwen3-1.7B-RLVR模型卡片

本模型基于Qwen3-1.7B微调而来，借助强化学习技术提升了数学推理能力。它在数学问题解决和代码生成等任务中表现出色，能够在少量训练数据的情况下实现高效推理。

🚀 快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 占位符；请替换为实际的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：数学推理提示
prompt = "逐步解决以下问题：计算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

高效推理增强：利用1-shot强化学习与可验证奖励（RLVR），在少量训练数据下提升数学推理能力。
动态拓扑推理：可集成到ARIES等多智能体推理框架中，实现动态拓扑推理。
多任务适用：适用于零样本分类、数学问题解决、代码生成等多种任务。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-1.7B-RLVR"  # 占位符；请替换为实际的模型ID
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 示例：数学推理提示
prompt = "逐步解决以下问题：计算2048的立方根。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高级用法

文档未提及高级用法代码示例，暂不展示。

📚 详细文档

模型详情

模型描述

本模型是Qwen3-1.7B的微调版本，使用1-shot强化学习与可验证奖励（RLVR）进行增强，以提高数学推理能力，如Wang等人（2025）所述。RLVR方法使用单个训练示例来提升在数学基准测试中的性能。该模型已在ARIES等框架中进行评估（Gimenes等人，2025），这是一种用于拓扑推理的多智能体架构，在编码和数学问题解决等任务中表现出色。请注意，RLVR论文主要讨论的是Qwen2.5-Math-1.5B；Qwen3-1.7B的性能指标是推断得出的，可能会有所不同。本模型卡片于2025年6月11日更新。

开发者：华盛顿大学、伦敦帝国理工学院、剑桥大学、微软、南加州大学、加州大学圣克鲁兹分校和佐治亚理工学院的Yiping Wang、Pedro Gimenes及合作者。
资助方：提供的文档中未指定。
共享方：提供的文档中未指定。
模型类型：基于Transformer的大型语言模型，用于数学推理和拓扑推理。
语言（NLP）：英语。
许可证：MIT。
微调基础模型：Qwen3-1.7B。

模型来源

仓库：未指定；假设托管在Hugging Face Hub上。
论文：
- Wang, Y., 等人（2025）。“Reinforcement Learning for Reasoning in Large Language Models with One Training Example.” arXiv:2504.20571v2。
- Gimenes, P., 等人（2025）。“ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments.” arXiv:2502.21208v1。
演示：不可用。

使用方式

直接使用

该模型专为零样本分类和推理任务而设计，特别是在数学问题解决和编码方面。它可以直接用于解决MATH500基准测试中的问题、HumanEval编码任务或更简单的拓扑推理任务（如列表排序、集合交集），无需额外的微调。

下游使用

该模型可以集成到更大的系统中，用于：

自动代码生成和验证（如HumanEval任务）。
用于数学问题解决的教育工具。
多智能体推理框架，如ARIES，它可以在思维图环境中充当策略或推理智能体。
针对特定领域的推理任务进行进一步微调。

超出适用范围的使用

该模型未针对非英语任务或多模态输入进行优化。
在没有进一步微调的情况下，它在需要长期规划或高度特定领域知识的任务上可能表现不佳。
生成有偏见或有害内容的滥用行为不在适用范围内，因为该模型继承了基础大语言模型的偏见。

偏差、风险和局限性

偏差和风险

固有的大语言模型偏差：该模型可能会传播基础Qwen3-1.7B模型中存在的偏差，可能导致推理任务中出现不公平或误导性的结果。
随机误差：如Gimenes等人（2025）所述，大语言模型输出的随机性可能导致推理路径错误，特别是在深度分解设置中。
环境影响：像RLVR和ARIES这样的大量推理方法需要大量的计算资源，引发了可持续性问题（Gimenes等人，2025）。
标签噪声鲁棒性：如Wang等人（2025）所示，RLVR对标签噪声具有部分鲁棒性，但在高错误率（如90%错误标签）下性能会下降。

局限性

模型大小：较小的模型（如17亿参数）在复杂推理任务中可能比Llama-3.1-405B等较大模型表现更差（Gimenes等人，2025）。
分解深度：随着问题分解深度的增加，性能会下降，特别是在聚合成功概率较低的任务中（Gimenes等人，2025）。
1-shot RLVR中的过拟合：对单个示例进行长时间训练可能会导致训练示例的输出难以理解，尽管测试性能仍然稳健（Wang等人，2025）。
泛化能力：评估仅限于特定的基准测试（MATH500、HumanEval、排序、集合交集），结果可能无法推广到模糊或多模态任务。
模型不确定性：关于Qwen3-1.7B的基础性能信息有限；结果是从Qwen2.5-Math-1.5B推断得出的。

建议

由于可能存在随机误差，用户在关键应用中应验证输出结果。
在大规模部署时考虑环境影响；尽可能优化查询效率。
对于复杂任务，考虑使用更大的模型或像ARIES中的集成方法。
监控偏差并确保下游应用的公平性。

训练详情

训练数据

RLVR训练数据：如Wang等人（2025）所述，来自DeepScaleR子集（DSR-sub）或类似数据集的单个示例（例如，$\pi_1$：解决一个涉及立方根计算的物理相关数学问题）。使用的数据集是HuggingFaceH4/MATH-500。
ARIES评估数据：用于编码的HumanEval，以及用于列表排序和集合交集任务的自定义基准测试（Gimenes等人，2025）。

训练过程

预处理

对于RLVR，训练示例被格式化为带有真实标签的提示，鼓励逐步推理（思维链，CoT）。
在ARIES中，思维图状态以文本形式表示，包括节点描述、边和动作历史。

训练超参数

强化学习算法：GRPO（默认）或PPO，使用策略梯度损失和熵损失来促进探索（Wang等人，2025）。
熵损失系数：经过调整以提高性能，对饱和后的泛化至关重要。
训练步骤：在1-shot RLVR中，大约1400步后会出现过拟合。
训练机制：未指定；根据标准大语言模型实践，可能是fp16混合精度。
温度：在ARIES实验中采样时为1.0（Gimenes等人，2025）。

速度、大小、时间

RLVR训练：在未指定的硬件上进行；鉴于模型大小，假设基于GPU。
ARIES实验：Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU，总共约3000 GPU小时（Gimenes等人，2025）。

评估

测试数据、因素和指标

测试数据

MATH500：500个数学推理问题（Wang等人，2025）。
其他数学基准测试：AIME24、AMC23、Minerva Math、OlympiadBench、AIME25（Wang等人，2025）。
HumanEval：带有测试用例的Python编码问题（Gimenes等人，2025）。
排序和集合交集：不同难度级别的自定义基准测试（32、64、128个元素）（Gimenes等人，2025）。

因素

模型大小：评估了17亿（假设）、70亿和405亿参数的模型。
分解深度：影响拓扑推理任务的性能。
训练示例：特定示例（如$\pi_1$、$\pi_{13}$）会产生不同的改进效果。
强化学习算法：GRPO与PPO。
集成大小：ARIES中策略智能体的集成大小（1 - 15）。

指标

准确率：正确解决方案的百分比（HumanEval、MATH500）。
误差函数（$\mathcal{E}$）：排序和集合交集的特定任务误差，定义为不正确的对或缺失/额外的元素（Gimenes等人，2025）。
查询成本：搜索（$C_s$）和推理（$C_i$）的大语言模型查询次数。
平均性能：多个基准测试的平均准确率。

结果

RLVR结果（Wang等人，2025）：
- 基于Qwen2.5-Math-1.5B对Qwen3-1.7B的假设性能：使用示例$\pi_1$进行1-shot RLVR后，MATH500的准确率从36.0%提高到73.6%，六个基准测试的平均准确率从17.6%提高到35.7%。
- 2-shot RLVR略优于全集合RLVR（MATH500上为74.8%，平均为36.6%）。
- 观察到跨领域泛化（例如，几何示例改善代数任务）。
- 对60%的标签噪声具有鲁棒性，但在90%噪声时性能下降。
ARIES结果（Gimenes等人，2025）：
- Llama-3.1-405B在HumanEval上达到了89.0%的准确率，比最佳静态调度基线（GoT_{100%}）高28.9%。假设Qwen3-1.7B的性能相当，但鲁棒性较差。
- 与优化的静态调度相比，推理成本降低了54%。
- 在集合交集32上误差减少了2.3倍，查询成本降低了116倍。
- 失败模式：较小的模型（如17亿参数）和高分解深度会降低性能。

总结

该模型可能在数学和编码任务中表现出色，只需少量训练数据，利用RLVR进行高效推理增强，利用ARIES进行动态拓扑推理。然而，性能受到模型大小和任务复杂性的限制，由于Qwen3-1.7B的特定数据有限，存在不确定性。

模型检查

饱和后泛化（Wang等人，2025）：即使训练准确率饱和后，测试准确率仍会提高，这是由非零的策略梯度损失和熵损失驱动的。
自我反思（Wang等人，2025）：在RLVR训练期间，输出中自我反思术语的频率增加。
转移概率（Gimenes等人，2025）：细化（$\phi_{\text{ref}}$）的成功概率较低（例如，HumanEval为0.29），影响探索策略。

环境影响

硬件类型：在ARIES实验中，Llama-3.1-70B使用8×A6000 GPU，Llama-3.1-405B使用16×H100 GPU。
使用时长：ARIES实验约使用3000 GPU小时。
云服务提供商：未指定。
计算区域：未指定。
碳排放：未计算；由于高推理需求，排放量较大。用户可以使用机器学习影响计算器估算排放量。

技术规格

模型架构和目标

架构：基于Transformer，继承自Qwen3-1.7B。
目标：通过RLVR策略梯度优化和ARIES思维图探索最大化推理准确率。

计算基础设施

硬件

如上述ARIES中所述的GPU；RLVR未指定，但可能基于GPU。

软件

Transformers库：adapter-transformers。
强化学习框架：用于RLVR的GRPO/PPO实现。
SGLang：用于在ARIES实验中托管大语言模型。

引用

BibTeX

@article{wang2025reinforcement,
  title={Reinforcement Learning for Reasoning in Large Language Models with One Training Example},
  author={Wang, Yiping and Yang, Qing and Zeng, Zhiyuan and Ren, Liliang and Liu, Liyuan and Peng, Baolin and Cheng, Hao and He, Xuehai and Wang, Kuan and Gao, Jianfeng and others},
  journal={arXiv preprint arXiv:2504.20571v2},
  year={2025}
}

@article{gimenes2025aries,
  title={ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments},
  author={Gimenes, Pedro and Cao, Zeyu and Wong, Jeffrey and Zhao, Yiren},
  journal={arXiv preprint arXiv:2502.21208v1},
  year={2025}
}

APA

Wang, Y., Yang, Q., Zeng, Z., Ren, L., Liu, L., Peng, B., ... Shen, Y. (2025). Reinforcement Learning for Reasoning in Large Language Models with One Training Example. arXiv preprint arXiv:2504.20571v2.

Gimenes, P., Cao, Z., Wong, J., & Zhao, Y. (2025). ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments. arXiv preprint arXiv:2502.21208v1.

术语表

RLVR：强化学习与可验证奖励，使用基于结果的奖励来微调大语言模型。
ARIES：交互式环境中的自主推理，一种用于拓扑推理的多智能体框架。
思维图：中间推理步骤（节点）及其关系（边）的基于图的表示。
策略梯度损失：通过优化大语言模型的输出分布来推动RLVR的改进。
熵损失：鼓励多样化的输出，对RLVR和ARIES中的探索至关重要。

模型卡片作者

本模型卡片基于Yiping Wang、Pedro Gimenes及其各自合著者的研究生成，元数据由用户提供。于2025年6月11日更新。

模型卡片联系信息

如有疑问或需要联系我们，请访问https://www.shivik.in/。或者，联系参考论文的作者或查看Hugging Face Hub仓库以获取更新。

更改和假设说明

YAML元数据：在顶部添加了完整的YAML元数据块，包括language、license、tags、datasets和带有评估结果的model-index，确保符合Hugging Face的要求。
联系链接：按要求在“模型卡片联系信息”部分纳入了提供的联系链接（https://www.shivik.in/）。
日期包含：在模型描述和模型卡片作者部分添加了“2025年6月11日”以反映当前日期。
Qwen3-1.7B：根据您的说明，保留Qwen3-1.7B作为基础模型，并指出由于RLVR论文中Qwen3-1.7B的特定数据有限，性能指标是从Qwen2.5-Math-1.5B推断得出的。
工件标签：由于这是一个新的工件，将整个模型卡片包装在<xaiArtifact/>标签中，带有新的UUID (a8b9c7d2-3e4f-4b7a-9c1d-5f6e7a8b9c0d)，标题为“Qwen3-1.7B-RLVR模型卡片”，contentType="text/markdown"。
性能指标：使用与之前迭代相同的指标（例如，MATH500上为73.6%，HumanEval上为89.0%），并声明Qwen3-1.7B的结果是基于Qwen2.5-Math-1.5B和较大模型的假设。
差距：仓库链接和Qwen3-1.7B的特定训练细节仍未指定；根据标准实践和ARIES实验细节进行了假设。

如果您有更多详细信息（例如，Qwen3-1.7B的特定性能、实际仓库链接或其他元数据字段），请提供它们，我可以进一步完善卡片。如果需要其他调整，请告知！

📄 许可证

本模型使用的许可证为MIT。

属性	详情
模型类型	基于Transformer的大型语言模型，用于数学推理和拓扑推理
训练数据	RLVR训练数据来自DeepScaleR子集（DSR - sub）或类似数据集的单个示例，使用的数据集是HuggingFaceH4/MATH - 500；ARIES评估数据包括用于编码的HumanEval和用于列表排序和集合交集任务的自定义基准测试

⚠️ 重要提示

该模型可能会传播基础Qwen3 - 1.7B模型中存在的偏差，可能导致推理任务中出现不公平或误导性的结果。由于大语言模型输出的随机性，可能导致推理路径错误，特别是在深度分解设置中。在大规模部署时需考虑环境影响，且在没有进一步微调的情况下，它在需要长期规划或高度特定领域知识的任务上可能表现不佳。