🚀 MedQwen3B-Reasoner:基于数学强化训练的医学领域推理模型
MedQwen3B-Reasoner是Qwen2.5-3B-Instruct的一个特殊变体,它使用GRPO
进行微调,在医学领域推理方面表现出色,同时保持了强大的数学问题解决能力。该模型展现出了增强的推理能力,并能在适当的时候表达不确定性。

🚀 快速开始
重要提示
如果您使用ollama
、llama-cpp
、vllm
或任何其他推理引擎,需要将系统提示设置如下,因为该模型在以下提示下表现最佳:
'\n以以下格式回复:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n'
自行训练
阅读我的文章点击此处或参考笔记本。
✨ 主要特性
- 结合医学领域专业知识和数学推理能力。
- 能够通过“maybe”回复表达不确定性。
- 结构化推理输出,提供清晰的逐步解释。
- 模型规模紧凑(30亿参数),同时保持强大性能。
- 使用GRPO(Group Relative Policy Optimization)进行483步训练。
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "hooman650/MedQwen3B-Reasoner"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What is the relationship between BMI and cardiovascular disease risk?"
messages = [
{"role": "system", "content": "\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
高级用法
暂未提供高级用法相关代码示例。
📚 详细文档
训练数据
该模型使用精心策划的数据集组合进行训练:
示例展示
以下是该模型在不同领域的推理能力示例:
数学推理
问题:阿加莎有一些钱用于购买新自行车。她花了15美元买车架,花了25美元买前轮。如果她还剩下20美元用于购买车座和把带,那么她一开始有多少钱(以美元为单位)?
真实答案:
60
MedQwen3B答案(附带推理过程)
<reasoning>
要确定阿加莎最初有多少钱,我们需要将她花在车架、前轮上的钱以及她剩下用于购买车座和把带的钱相加。
她花在车架和前轮上的总金额为:
15美元 + 25美元 = 40美元
她剩下的钱是20美元。
因此,阿加莎最初拥有的钱数是她已花费的钱和剩余的钱的总和:
40美元 + 20美元 = 60美元
</reasoning>
<answer>
阿加莎最初有60美元。
</answer>
医学研究分析
给定以下科学背景:
"""
接受经尿道膀胱肿瘤切除术(TURBT)的膀胱癌患者有复发风险。本研究旨在将骨形态发生蛋白(BMP)的表达水平与尿路上皮癌的侵袭性、TNM分期以及TURBT后的复发时间相关联。
在33份健康移行上皮标本和42份尿路上皮癌标本中,通过实时聚合酶链反应测定了BMP2、BMP4和BMP7的表达。接受TURBT的患者进行了为期1年的随访。
BMP2和BMP7在浸润性尿路上皮癌中表达下调,相对表达分别为0.76(p = 0.04)和0.28(p = 0.025),而BMP4在非侵袭性肿瘤中表达下调。BMP2和BMP7的高表达与复发时间延长相关(对数秩检验:p = 0.01和p = 0.03)。
"""
回答以下问题:
膀胱癌中骨形态发生蛋白 - 2和 - 7的表达是否能预测肿瘤复发时间?请用“是”、“否”或“可能”回答。你需要仔细审查背景信息并进行推理后再作答。
真实答案:
是
MedQwen3b答案:
<reasoning>
研究表明,BMP2和BMP7的高表达与复发时间延长相关(对数秩检验:p = 0.01和p = 0.03)。这意味着BMP2和BMP7的基因表达水平与复发时间显著相关,表达越高,复发时间越长。因此,基于统计学显著性(p值 < 0.05),可以合理地得出结论,即膀胱癌患者中骨形态发生蛋白 - 2和 - 7的表达可以预测肿瘤复发时间。
</reasoning>
<answer>
是
</answer>
临床决策
回答以下问题:
儿科医生鼓励犹豫不决的家长为孩子接种疫苗的推荐策略是什么?A:允许某些疫苗延迟接种,同时确保最重要的疫苗按时接种。 B:以评判的方式提供免疫益处的证据。 C:提倡替代免疫接种时间表以满足家长的担忧。 D:如果家长拒绝接种疫苗,将患者从其诊疗名单中剔除。
请用“A”、“B”、“C”或“D”回答。你需要仔细审查背景信息并进行推理后再作答。
真实答案:
A
MedQwen3B答案:
<reasoning>
儿科医生鼓励犹豫不决的家长为孩子接种疫苗的推荐策略不应导致放弃或解雇家庭,因为这会破坏儿科医生在保护儿童健康方面的关键作用。选项D会损害儿科医生和家长之间的信任,可能会使他们疏远。选项B和C可能会造成混淆或威胁家长对推荐接种时间表的信任。另一方面,选项A提供了一个基于证据的折衷方案,允许一定的灵活性,同时确保基本疫苗的接种,这可以得到犹豫不决的家长的尊重,因为它平衡了他们的担忧和公共卫生需求。
这种方法尊重家长的自主权,同时提供相关信息和保证,有助于解决他们的犹豫,因此选项A是最合适的策略。
</reasoning>
<answer>
A
</answer>
模型详情
引用说明
如果您在研究中使用此模型,请引用:
@misc {hooman_sedghamiz_2025,
author = { {Hooman Sedghamiz} },
title = { MedQwen3B-Reasoner (Revision 5dbc982) },
year = 2025,
url = { https://huggingface.co/hooman650/MedQwen3B-Reasoner },
doi = { 10.57967/hf/4415 },
publisher = { Hugging Face }
}
🔧 技术细节
暂未提供技术细节相关内容。
📄 许可证
该模型采用Apache 2.0许可证。