🚀 Gazal-R1-32B:醫學推理語言模型
Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型。它基於 Qwen 3 32B 構建,通過特殊的訓練方式,在專業醫學領域展現出卓越性能,能為醫學研究和臨床支持提供有力幫助。
🚀 快速開始
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "TachyHealth/Gazal-R1-32B-GRPO-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = """A 65-year-old male presents with chest pain, shortness of breath, and elevated troponin levels.
ECG shows ST-segment elevation in leads II, III, and aVF. What is the most likely diagnosis and immediate management?"""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048,
temperature=0.7,
top_p=0.8,
top_k=20
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)
print("Medical Assessment:", response)
結構化醫學推理格式
Gazal-R1 經過訓練,能夠以以下格式提供結構化的醫學推理:
<think>
Step 1: Analyze presenting symptoms - chest pain, dyspnea, troponin elevation
Step 2: Interpret ECG findings - ST elevation in inferior leads
Step 3: Consider differential diagnoses - STEMI vs NSTEMI vs unstable angina
Step 4: Identify culprit vessel - likely RCA given inferior lead changes
Step 5: Assess urgency - emergent intervention required
Step 6: Plan immediate management - dual antiplatelet, anticoagulation, cath lab
</think>
## Clinical Assessment
**Primary Diagnosis**: ST-Elevation Myocardial Infarction (STEMI), inferior wall
**Reasoning**: The combination of chest pain, elevated troponin, and ST-elevation in leads II, III, and aVF is pathognomonic for inferior STEMI, likely involving the right coronary artery (RCA).
**Immediate Management**:
1. **Reperfusion therapy**: Emergency cardiac catheterization with primary PCI
2. **Antiplatelet therapy**: Aspirin 325mg + P2Y12 inhibitor (clopidogrel/ticagrelor)
3. **Anticoagulation**: Heparin or bivalirudin
4. **Supportive care**: O2 if hypoxic, nitroglycerin for pain (avoid if hypotensive)
**Follow-up**: Post-PCI monitoring, echocardiogram, cardiac rehabilitation referral
✨ 主要特性
- 醫學專業知識:在 107,033 個合成醫學推理示例上進行了專業訓練,涵蓋診斷推理、治療規劃、不確定情況下的決策和預後評估等方面。
- 透明推理:按照既定的臨床推理框架,在
<think></think>
標籤中提供帶有逐步解釋的結構化臨床思維。
- 卓越性能:在 MedQA 上達到 87.1%,在 MMLU Pro(醫學)上達到 81.6%,在 PubMedQA 上達到 79.6%,超越了大 12 倍的模型。
- 參數效率:採用了包括權重分解低秩自適應(DoRA)和秩穩定 LoRA(rsLoRA)在內的先進訓練技術。
- 對齊優化:通過具有複雜多組件獎勵系統的組相對策略優化(GRPO)進行了優化。
- 醫學知識:對多個醫學專業和臨床場景有全面的理解。
📚 詳細文檔
模型概述
屬性 |
詳情 |
模型類型 |
因果語言模型(醫學推理專家) |
基礎模型 |
Qwen 3 32B |
訓練階段 |
兩階段流程(監督微調 + 強化學習) |
參數數量 |
328 億 |
參數數量(非嵌入) |
312 億 |
上下文長度 |
原生 32,768 個標記,使用 YaRN 可擴展至 131,072 個標記 |
訓練數據 |
107,033 個合成醫學推理示例 + MedReason 數據集(32,682 個示例) |
微調方法 |
DoRA + rsLoRA(參數高效微調) |
對齊方式 |
組相對策略優化(GRPO) |
性能結果
模型 |
規模 |
MMLU Pro(醫學) |
MedMCQA |
MedQA |
PubMedQA |
Gazal-R1(最終版) |
32B |
81.6 |
71.9 |
87.1 |
79.6 |
Gazal-R1(僅監督微調版) |
32B |
79.3 |
72.3 |
86.9 |
77.6 |
Llama 3.1 405B Instruct |
405B |
70.2 |
75.8 |
81.9 |
74.6 |
Qwen 2.5 72B Instruct |
72B |
72.1 |
66.2 |
72.7 |
71.7 |
Med42-Llama3.1-70B |
70B |
66.1 |
72.4 |
80.4 |
77.6 |
Llama 3.1 70B Instruct |
70B |
74.5 |
72.5 |
78.4 |
78.5 |
QwQ 32B |
32B |
70.1 |
65.6 |
72.3 |
73.7 |
Qwen 3 32B |
32B |
78.4 |
71.6 |
84.4 |
76.7 |
主要成就:
- 在 MMLU Pro(醫學)、MedQA 和 PubMedQA 上取得了最高分。
- 通過 GRPO 訓練有顯著提升(MMLU Pro 提升 2.3%,PubMedQA 提升 2.0%)。
- 在醫學推理任務上超越了大 12 倍的模型(Llama 3.1 405B)。
訓練方法
階段 1:監督微調(SFT)
- 數據集:107,033 個合成醫學推理示例 + MedReason 數據集
- 技術:採用秩為 256 的 DoRA + rsLoRA
- 重點:跨診斷、治療和預後場景的結構化臨床推理
階段 2:組相對策略優化(GRPO)
- 算法:無價值函數的強化學習
- 數據集:UltraMedical 子集(32,000 個醫學多項選擇題)
- 獎勵:多組件系統(準確性、格式、長度控制、重複懲罰)
- 改進:提高了推理質量和格式遵循度
模型能力
臨床推理類型
- 診斷推理:系統的症狀分析 - 鑑別診斷
- 治療規劃:基於證據的治療選擇,考慮患者特定因素
- 不確定情況下的決策:風險評估和臨床判斷
- 預後評估:基於臨床證據的結果預測
涵蓋的醫學專業
- 內科
- 急診醫學
- 心臟病學
- 肺病學
- 傳染病學
- 藥理學
- 病理生理學
- 臨床檢驗醫學
使用場景
研究和教育
- 醫學教育和培訓
- 臨床推理研究
- 醫學知識評估
- 學術醫學寫作輔助
專業支持(需監督)
- 文獻綜述輔助
- 臨床病例分析支持
- 醫學文檔編寫輔助
- 鑑別診斷探索
不適用場景
- 直接患者護理
- 緊急醫療決策
- 替代臨床判斷
- 無監督的醫學建議
模型訪問
🔧 技術細節
侷限性和重要免責聲明
關鍵安全信息
⚠️ 重要提示
- Gazal-R1 是一個研究模型,不用於直接臨床使用、診斷或治療規劃。
- 所有輸出必須由合格的醫學專業人員獨立驗證。
- 知識是靜態的,不反映最新的醫學研究或指南。
技術侷限性
⚠️ 重要提示
- 知識截止:訓練數據反映了訓練日期之前的醫學知識。
- 幻覺風險:可能會生成聽起來合理但事實錯誤的信息。
- 評估範圍:主要在多項選擇題上進行評估,實際臨床場景可能有所不同。
- 區域偏差:訓練數據可能包含地理或人口統計學偏差。
倫理考慮
⚠️ 重要提示
- 專業責任:最終的醫療決策必須始終由合格的醫療保健提供者做出。
- 問責制:用戶有責任驗證和適當地應用模型輸出。
- 患者安全:切勿用於緊急醫療情況或時間敏感的決策。
📄 許可證
本模型根據 Apache 2.0 許可證發佈。使用前請查看許可證條款。
聯繫信息
如有關於 Gazal-R1 的問題,請聯繫:
由 TachyHealth 研究團隊開發。該模型在醫學人工智能推理方面取得了重大進展,同時強調了專業醫學監督的重要性。