🚀 Gazal-R1-32B:医学推理语言模型
Gazal-R1-32B 是一款专为医学推理和临床决策打造的语言模型。它基于 Qwen 3 32B 构建,通过特殊的训练方式,在专业医学领域展现出卓越性能,能为医学研究和临床支持提供有力帮助。
🚀 快速开始
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "TachyHealth/Gazal-R1-32B-GRPO-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = """A 65-year-old male presents with chest pain, shortness of breath, and elevated troponin levels.
ECG shows ST-segment elevation in leads II, III, and aVF. What is the most likely diagnosis and immediate management?"""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048,
temperature=0.7,
top_p=0.8,
top_k=20
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)
print("Medical Assessment:", response)
结构化医学推理格式
Gazal-R1 经过训练,能够以以下格式提供结构化的医学推理:
<think>
Step 1: Analyze presenting symptoms - chest pain, dyspnea, troponin elevation
Step 2: Interpret ECG findings - ST elevation in inferior leads
Step 3: Consider differential diagnoses - STEMI vs NSTEMI vs unstable angina
Step 4: Identify culprit vessel - likely RCA given inferior lead changes
Step 5: Assess urgency - emergent intervention required
Step 6: Plan immediate management - dual antiplatelet, anticoagulation, cath lab
</think>
## Clinical Assessment
**Primary Diagnosis**: ST-Elevation Myocardial Infarction (STEMI), inferior wall
**Reasoning**: The combination of chest pain, elevated troponin, and ST-elevation in leads II, III, and aVF is pathognomonic for inferior STEMI, likely involving the right coronary artery (RCA).
**Immediate Management**:
1. **Reperfusion therapy**: Emergency cardiac catheterization with primary PCI
2. **Antiplatelet therapy**: Aspirin 325mg + P2Y12 inhibitor (clopidogrel/ticagrelor)
3. **Anticoagulation**: Heparin or bivalirudin
4. **Supportive care**: O2 if hypoxic, nitroglycerin for pain (avoid if hypotensive)
**Follow-up**: Post-PCI monitoring, echocardiogram, cardiac rehabilitation referral
✨ 主要特性
- 医学专业知识:在 107,033 个合成医学推理示例上进行了专业训练,涵盖诊断推理、治疗规划、不确定情况下的决策和预后评估等方面。
- 透明推理:按照既定的临床推理框架,在
<think></think>
标签中提供带有逐步解释的结构化临床思维。
- 卓越性能:在 MedQA 上达到 87.1%,在 MMLU Pro(医学)上达到 81.6%,在 PubMedQA 上达到 79.6%,超越了大 12 倍的模型。
- 参数效率:采用了包括权重分解低秩自适应(DoRA)和秩稳定 LoRA(rsLoRA)在内的先进训练技术。
- 对齐优化:通过具有复杂多组件奖励系统的组相对策略优化(GRPO)进行了优化。
- 医学知识:对多个医学专业和临床场景有全面的理解。
📚 详细文档
模型概述
属性 |
详情 |
模型类型 |
因果语言模型(医学推理专家) |
基础模型 |
Qwen 3 32B |
训练阶段 |
两阶段流程(监督微调 + 强化学习) |
参数数量 |
328 亿 |
参数数量(非嵌入) |
312 亿 |
上下文长度 |
原生 32,768 个标记,使用 YaRN 可扩展至 131,072 个标记 |
训练数据 |
107,033 个合成医学推理示例 + MedReason 数据集(32,682 个示例) |
微调方法 |
DoRA + rsLoRA(参数高效微调) |
对齐方式 |
组相对策略优化(GRPO) |
性能结果
模型 |
规模 |
MMLU Pro(医学) |
MedMCQA |
MedQA |
PubMedQA |
Gazal-R1(最终版) |
32B |
81.6 |
71.9 |
87.1 |
79.6 |
Gazal-R1(仅监督微调版) |
32B |
79.3 |
72.3 |
86.9 |
77.6 |
Llama 3.1 405B Instruct |
405B |
70.2 |
75.8 |
81.9 |
74.6 |
Qwen 2.5 72B Instruct |
72B |
72.1 |
66.2 |
72.7 |
71.7 |
Med42-Llama3.1-70B |
70B |
66.1 |
72.4 |
80.4 |
77.6 |
Llama 3.1 70B Instruct |
70B |
74.5 |
72.5 |
78.4 |
78.5 |
QwQ 32B |
32B |
70.1 |
65.6 |
72.3 |
73.7 |
Qwen 3 32B |
32B |
78.4 |
71.6 |
84.4 |
76.7 |
主要成就:
- 在 MMLU Pro(医学)、MedQA 和 PubMedQA 上取得了最高分。
- 通过 GRPO 训练有显著提升(MMLU Pro 提升 2.3%,PubMedQA 提升 2.0%)。
- 在医学推理任务上超越了大 12 倍的模型(Llama 3.1 405B)。
训练方法
阶段 1:监督微调(SFT)
- 数据集:107,033 个合成医学推理示例 + MedReason 数据集
- 技术:采用秩为 256 的 DoRA + rsLoRA
- 重点:跨诊断、治疗和预后场景的结构化临床推理
阶段 2:组相对策略优化(GRPO)
- 算法:无价值函数的强化学习
- 数据集:UltraMedical 子集(32,000 个医学多项选择题)
- 奖励:多组件系统(准确性、格式、长度控制、重复惩罚)
- 改进:提高了推理质量和格式遵循度
模型能力
临床推理类型
- 诊断推理:系统的症状分析 - 鉴别诊断
- 治疗规划:基于证据的治疗选择,考虑患者特定因素
- 不确定情况下的决策:风险评估和临床判断
- 预后评估:基于临床证据的结果预测
涵盖的医学专业
- 内科
- 急诊医学
- 心脏病学
- 肺病学
- 传染病学
- 药理学
- 病理生理学
- 临床检验医学
使用场景
研究和教育
- 医学教育和培训
- 临床推理研究
- 医学知识评估
- 学术医学写作辅助
专业支持(需监督)
- 文献综述辅助
- 临床病例分析支持
- 医学文档编写辅助
- 鉴别诊断探索
不适用场景
- 直接患者护理
- 紧急医疗决策
- 替代临床判断
- 无监督的医学建议
模型访问
🔧 技术细节
局限性和重要免责声明
关键安全信息
⚠️ 重要提示
- Gazal-R1 是一个研究模型,不用于直接临床使用、诊断或治疗规划。
- 所有输出必须由合格的医学专业人员独立验证。
- 知识是静态的,不反映最新的医学研究或指南。
技术局限性
⚠️ 重要提示
- 知识截止:训练数据反映了训练日期之前的医学知识。
- 幻觉风险:可能会生成听起来合理但事实错误的信息。
- 评估范围:主要在多项选择题上进行评估,实际临床场景可能有所不同。
- 区域偏差:训练数据可能包含地理或人口统计学偏差。
伦理考虑
⚠️ 重要提示
- 专业责任:最终的医疗决策必须始终由合格的医疗保健提供者做出。
- 问责制:用户有责任验证和适当地应用模型输出。
- 患者安全:切勿用于紧急医疗情况或时间敏感的决策。
📄 许可证
本模型根据 Apache 2.0 许可证发布。使用前请查看许可证条款。
联系信息
如有关于 Gazal-R1 的问题,请联系:
由 TachyHealth 研究团队开发。该模型在医学人工智能推理方面取得了重大进展,同时强调了专业医学监督的重要性。