Gazal-R1-32B-GRPO-preview開源醫學語言模型 - 助力醫學推理與臨床決策！

首頁

Gazal R1 32B GRPO Preview

由TachyHealth開發

Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型，基於 Qwen 3 32B 構建，在專業醫學領域展現出卓越性能。

大型語言模型

Transformers

開源協議:Apache-2.0 #醫學推理專家 #結構化臨床思維 #GRPO強化學習

下載量 116

發布時間 : 5/26/2025

模型概述

Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型，能為醫學研究和臨床支持提供有力幫助。

模型特點

醫學專業知識

在 107,033 個合成醫學推理示例上進行了專業訓練，涵蓋診斷推理、治療規劃、不確定情況下的決策和預後評估等方面。

透明推理

按照既定的臨床推理框架，在 `<think></think>` 標籤中提供帶有逐步解釋的結構化臨床思維。

卓越性能

在 MedQA 上達到 87.1%，在 MMLU Pro（醫學）上達到 81.6%，在 PubMedQA 上達到 79.6%，超越了大 12 倍的模型。

參數效率

採用了包括權重分解低秩自適應（DoRA）和秩穩定 LoRA（rsLoRA）在內的先進訓練技術。

對齊優化

通過具有複雜多組件獎勵系統的組相對策略優化（GRPO）進行了優化。

醫學知識

對多個醫學專業和臨床場景有全面的理解。

模型能力

醫學推理

臨床決策支持

診斷推理

治療規劃

預後評估

醫學知識問答

使用案例

研究和教育

醫學教育和培訓

用於醫學教育和培訓，幫助醫學生和醫生提升臨床推理能力。

臨床推理研究

用於臨床推理研究，幫助研究人員分析複雜的醫學案例。

專業支持

文獻綜述輔助

輔助醫學文獻綜述，提供結構化的醫學知識總結。

臨床病例分析支持

支持臨床病例分析，提供詳細的診斷和治療建議。

🚀 Gazal-R1-32B：醫學推理語言模型

Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型。它基於 Qwen 3 32B 構建，通過特殊的訓練方式，在專業醫學領域展現出卓越性能，能為醫學研究和臨床支持提供有力幫助。

🚀 快速開始

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "TachyHealth/Gazal-R1-32B-GRPO-preview"

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# Medical reasoning prompt
prompt = """A 65-year-old male presents with chest pain, shortness of breath, and elevated troponin levels. 
ECG shows ST-segment elevation in leads II, III, and aVF. What is the most likely diagnosis and immediate management?"""

messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# Generate response with medical reasoning
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    temperature=0.7,
    top_p=0.8,
    top_k=20
)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)

print("Medical Assessment:", response)

結構化醫學推理格式

Gazal-R1 經過訓練，能夠以以下格式提供結構化的醫學推理：

<think>
Step 1: Analyze presenting symptoms - chest pain, dyspnea, troponin elevation
Step 2: Interpret ECG findings - ST elevation in inferior leads
Step 3: Consider differential diagnoses - STEMI vs NSTEMI vs unstable angina
Step 4: Identify culprit vessel - likely RCA given inferior lead changes
Step 5: Assess urgency - emergent intervention required
Step 6: Plan immediate management - dual antiplatelet, anticoagulation, cath lab
</think>

## Clinical Assessment

**Primary Diagnosis**: ST-Elevation Myocardial Infarction (STEMI), inferior wall

**Reasoning**: The combination of chest pain, elevated troponin, and ST-elevation in leads II, III, and aVF is pathognomonic for inferior STEMI, likely involving the right coronary artery (RCA).

**Immediate Management**:
1. **Reperfusion therapy**: Emergency cardiac catheterization with primary PCI
2. **Antiplatelet therapy**: Aspirin 325mg + P2Y12 inhibitor (clopidogrel/ticagrelor)
3. **Anticoagulation**: Heparin or bivalirudin
4. **Supportive care**: O2 if hypoxic, nitroglycerin for pain (avoid if hypotensive)

**Follow-up**: Post-PCI monitoring, echocardiogram, cardiac rehabilitation referral

✨ 主要特性

醫學專業知識：在 107,033 個合成醫學推理示例上進行了專業訓練，涵蓋診斷推理、治療規劃、不確定情況下的決策和預後評估等方面。
透明推理：按照既定的臨床推理框架，在 <think></think> 標籤中提供帶有逐步解釋的結構化臨床思維。
卓越性能：在 MedQA 上達到 87.1%，在 MMLU Pro（醫學）上達到 81.6%，在 PubMedQA 上達到 79.6%，超越了大 12 倍的模型。
參數效率：採用了包括權重分解低秩自適應（DoRA）和秩穩定 LoRA（rsLoRA）在內的先進訓練技術。
對齊優化：通過具有複雜多組件獎勵系統的組相對策略優化（GRPO）進行了優化。
醫學知識：對多個醫學專業和臨床場景有全面的理解。

📚 詳細文檔

模型概述

屬性	詳情
模型類型	因果語言模型（醫學推理專家）
基礎模型	Qwen 3 32B
訓練階段	兩階段流程（監督微調 + 強化學習）
參數數量	328 億
參數數量（非嵌入）	312 億
上下文長度	原生 32,768 個標記，使用 YaRN 可擴展至 131,072 個標記
訓練數據	107,033 個合成醫學推理示例 + MedReason 數據集（32,682 個示例）
微調方法	DoRA + rsLoRA（參數高效微調）
對齊方式	組相對策略優化（GRPO）

性能結果

模型	規模	MMLU Pro（醫學）	MedMCQA	MedQA	PubMedQA
Gazal-R1（最終版）	32B	81.6	71.9	87.1	79.6
Gazal-R1（僅監督微調版）	32B	79.3	72.3	86.9	77.6
Llama 3.1 405B Instruct	405B	70.2	75.8	81.9	74.6
Qwen 2.5 72B Instruct	72B	72.1	66.2	72.7	71.7
Med42-Llama3.1-70B	70B	66.1	72.4	80.4	77.6
Llama 3.1 70B Instruct	70B	74.5	72.5	78.4	78.5
QwQ 32B	32B	70.1	65.6	72.3	73.7
Qwen 3 32B	32B	78.4	71.6	84.4	76.7