🚀 MedQwen3B-Reasoner:基於數學強化訓練的醫學領域推理模型
MedQwen3B-Reasoner是Qwen2.5-3B-Instruct的一個特殊變體,它使用GRPO
進行微調,在醫學領域推理方面表現出色,同時保持了強大的數學問題解決能力。該模型展現出了增強的推理能力,並能在適當的時候表達不確定性。

🚀 快速開始
重要提示
如果您使用ollama
、llama-cpp
、vllm
或任何其他推理引擎,需要將系統提示設置如下,因為該模型在以下提示下表現最佳:
'\n以以下格式回覆:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n'
自行訓練
閱讀我的文章點擊此處或參考筆記本。
✨ 主要特性
- 結合醫學領域專業知識和數學推理能力。
- 能夠通過“maybe”回覆表達不確定性。
- 結構化推理輸出,提供清晰的逐步解釋。
- 模型規模緊湊(30億參數),同時保持強大性能。
- 使用GRPO(Group Relative Policy Optimization)進行483步訓練。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "hooman650/MedQwen3B-Reasoner"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What is the relationship between BMI and cardiovascular disease risk?"
messages = [
{"role": "system", "content": "\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
高級用法
暫未提供高級用法相關代碼示例。
📚 詳細文檔
訓練數據
該模型使用精心策劃的數據集組合進行訓練:
示例展示
以下是該模型在不同領域的推理能力示例:
數學推理
問題:阿加莎有一些錢用於購買新自行車。她花了15美元買車架,花了25美元買前輪。如果她還剩下20美元用於購買車座和把帶,那麼她一開始有多少錢(以美元為單位)?
真實答案:
60
MedQwen3B答案(附帶推理過程)
<reasoning>
要確定阿加莎最初有多少錢,我們需要將她花在車架、前輪上的錢以及她剩下用於購買車座和把帶的錢相加。
她花在車架和前輪上的總金額為:
15美元 + 25美元 = 40美元
她剩下的錢是20美元。
因此,阿加莎最初擁有的錢數是她已花費的錢和剩餘的錢的總和:
40美元 + 20美元 = 60美元
</reasoning>
<answer>
阿加莎最初有60美元。
</answer>
醫學研究分析
給定以下科學背景:
"""
接受經尿道膀胱腫瘤切除術(TURBT)的膀胱癌患者有復發風險。本研究旨在將骨形態發生蛋白(BMP)的表達水平與尿路上皮癌的侵襲性、TNM分期以及TURBT後的復發時間相關聯。
在33份健康移行上皮標本和42份尿路上皮癌標本中,通過即時聚合酶鏈反應測定了BMP2、BMP4和BMP7的表達。接受TURBT的患者進行了為期1年的隨訪。
BMP2和BMP7在浸潤性尿路上皮癌中表達下調,相對錶達分別為0.76(p = 0.04)和0.28(p = 0.025),而BMP4在非侵襲性腫瘤中表達下調。BMP2和BMP7的高表達與復發時間延長相關(對數秩檢驗:p = 0.01和p = 0.03)。
"""
回答以下問題:
膀胱癌中骨形態發生蛋白 - 2和 - 7的表達是否能預測腫瘤復發時間?請用“是”、“否”或“可能”回答。你需要仔細審查背景信息並進行推理後再作答。
真實答案:
是
MedQwen3b答案:
<reasoning>
研究表明,BMP2和BMP7的高表達與復發時間延長相關(對數秩檢驗:p = 0.01和p = 0.03)。這意味著BMP2和BMP7的基因表達水平與復發時間顯著相關,表達越高,復發時間越長。因此,基於統計學顯著性(p值 < 0.05),可以合理地得出結論,即膀胱癌患者中骨形態發生蛋白 - 2和 - 7的表達可以預測腫瘤復發時間。
</reasoning>
<answer>
是
</answer>
臨床決策
回答以下問題:
兒科醫生鼓勵猶豫不決的家長為孩子接種疫苗的推薦策略是什麼?A:允許某些疫苗延遲接種,同時確保最重要的疫苗按時接種。 B:以評判的方式提供免疫益處的證據。 C:提倡替代免疫接種時間表以滿足家長的擔憂。 D:如果家長拒絕接種疫苗,將患者從其診療名單中剔除。
請用“A”、“B”、“C”或“D”回答。你需要仔細審查背景信息並進行推理後再作答。
真實答案:
A
MedQwen3B答案:
<reasoning>
兒科醫生鼓勵猶豫不決的家長為孩子接種疫苗的推薦策略不應導致放棄或解僱家庭,因為這會破壞兒科醫生在保護兒童健康方面的關鍵作用。選項D會損害兒科醫生和家長之間的信任,可能會使他們疏遠。選項B和C可能會造成混淆或威脅家長對推薦接種時間表的信任。另一方面,選項A提供了一個基於證據的折衷方案,允許一定的靈活性,同時確保基本疫苗的接種,這可以得到猶豫不決的家長的尊重,因為它平衡了他們的擔憂和公共衛生需求。
這種方法尊重家長的自主權,同時提供相關信息和保證,有助於解決他們的猶豫,因此選項A是最合適的策略。
</reasoning>
<answer>
A
</answer>
模型詳情
引用說明
如果您在研究中使用此模型,請引用:
@misc {hooman_sedghamiz_2025,
author = { {Hooman Sedghamiz} },
title = { MedQwen3B-Reasoner (Revision 5dbc982) },
year = 2025,
url = { https://huggingface.co/hooman650/MedQwen3B-Reasoner },
doi = { 10.57967/hf/4415 },
publisher = { Hugging Face }
}
🔧 技術細節
暫未提供技術細節相關內容。
📄 許可證
該模型採用Apache 2.0許可證。