🚀 II-Medical-7B-Preview
II-Medical-7B-Preview 是一個基於大量醫學知識數據集訓練的醫學推理模型,能夠有效提升人工智能在醫學領域的應用能力,為醫學相關的問答和推理任務提供支持。
🚀 快速開始
本模型的使用方式與 Qwen 或 Deepseek-R1-Distill 模型相同。
你可以使用 vLLM 輕鬆啟動服務:
vllm serve Intelligent-Internet/II-Medical-7B-Preview
也可以使用 SGLang 啟動服務:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-7B-Preview
✨ 主要特性
- 綜合數據集訓練:基於全面的醫學知識數據集進行訓練,涵蓋多種醫學推理數據來源。
- 多階段優化:通過 SFT 微調以及在困難推理數據集上進行 DAPO 訓練,提升模型性能。
- 多基準評估:在十個醫學問答基準測試中進行評估,展現出良好的性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考上述快速開始部分的使用命令。
💻 使用示例
基礎用法
使用 vLLM 啟動服務:
vllm serve Intelligent-Internet/II-Medical-7B-Preview
高級用法
使用 SGLang 啟動服務:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-7B-Preview
📚 詳細文檔
模型概述
II-Medical-7B-Preview 是一個在綜合數據集上訓練的醫學推理模型,旨在增強人工智能在醫學領域的能力。

訓練方法
收集並生成了一套全面的醫學領域推理數據集,並在 Qwen/Qwen2.5 - 7B - Instruct 模型上進行 SFT 微調。之後,在困難推理數據集上進行 DAPO 訓練,進一步優化 SFT 模型以提升性能。
SFT 階段使用的超參數:
- 最大長度:16378。
- 批量大小:128。
- 學習率:5e - 5。
- 訓練輪數:4。
RL 階段的訓練設置:
- 最大提示長度:2048 個標記。
- 最大響應長度:12288 個標記。
- 超長緩衝區:啟用,4096 個標記,懲罰因子 1.0。
- 剪輯比率:低 0.2,高 0.28。
- 批量大小:訓練提示 512,生成提示 1536,小批量 32。
- 每個提示的響應數:16。
- 溫度:1.0,Top - p:1.0,Top - k:-1(vLLM 推出)。
- 學習率:1e - 6,熱身步驟:10,權重衰減:0.1。
- 損失聚合:標記均值。
- 梯度裁剪:1.0。
- 熵係數:0。
評估結果
在十個醫學問答基準測試中進行評估,包括 MedMCQA、MedQA、PubMedQA、MMLU - Pro 和 GPQA 中的醫學相關問題、Lancet 和《新英格蘭醫學雜誌》的小問答集、MedBullets 平臺的 4 選項和 5 選項拆分以及 MedXpertQA。
模型 |
MedMC |
MedQA |
PubMed |
MMLU - P |
GPQA |
Lancet |
MedB - 4 |
MedB - 5 |
MedX |
NEJM |
平均 |
QWQ 32B |
69.73 |
87.03 |
88.5 |
79.86 |
69.17 |
71.3 |
72.07 |
69.01 |
24.98 |
75.12 |
70.68 |
Qwen2.5 - 7B - IT |
56.56 |
61.51 |
71.3 |
61.17 |
42.56 |
61.17 |
46.75 |
40.58 |
13.26 |
59.04 |
51.39 |
HuatuoGPT - o1 - 8B |
63.97 |
74.78 |
80.10 |
63.71 |
55.38 |
64.32 |
58.44 |
51.95 |
15.79 |
64.84 |
59.32 |
Med - reason |
61.67 |
71.87 |
77.4 |
64.1 |
50.51 |
59.7 |
60.06 |
54.22 |
22.87 |
66.8 |
59.92 |
M1 |
62.54 |
75.81 |
75.80 |
65.86 |
53.08 |
62.62 |
63.64 |
59.74 |
19.59 |
64.34 |
60.3 |
II - Medical - 7B - Preview - Wo - RL |
69.13 |
84.05 |
77.5 |
73.49 |
55.12 |
67.71 |
69.48 |
64.28 |
19.51 |
70.64 |
65.1 |
II - Medical - 7B - Preview |
69.42 |
85.15 |
77.9 |
77.26 |
55.90 |
65.29 |
72.72 |
68.50 |
22.97 |
68.66 |
66.4 |
數據集整理
訓練數據集包含 555,000 個樣本,來源如下:
- 公共醫學推理數據集(103,031 個樣本)
- 通用醫學推理:40,544 個樣本
- Medical - R1 - Distill - Data:22,000 個樣本
- Medical - R1 - Distill - Data - Chinese:17,000 個樣本
- UCSC - VLAA/m23k - tokenized:23,487 個樣本
- 使用 QwQ 生成的合成醫學問答數據(225,700 個樣本)
從已有的醫學數據集中生成:
- MedMcQA(來自 openlifescienceai/medmcqa):183,000 個樣本
- MedQA:10,000 個樣本
- MedReason:32,700 個樣本
- 整理的醫學 R1 推理軌跡(338,055 個樣本)
首先從以下來源收集所有公共 R1 推理軌跡:
- PrimeIntellect/SYNTHETIC - 1
- GeneralReasoning/GeneralThought - 430K
- a - m - team/AM - DeepSeek - R1 - Distilled - 1.4M
- open - thoughts/OpenThoughts2 - 1M
- nvidia/Llama - Nemotron - Post - Training - Dataset:僅科學子集
- 其他資源:cognitivecomputations/dolphin - r1, ServiceNow - AI/R1 - Distill - SFT,...
所有 R1 推理軌跡通過特定領域的管道進行處理:
- 嵌入生成:使用 sentence - transformers/all - MiniLM - L6 - v2 對提示進行嵌入。
- 聚類:進行 50,000 個聚類的 K - means 聚類。
- 領域分類:
- 對於每個聚類,選擇距離聚類中心最近的 10 個提示。
- 使用 Qwen2.5 - 32b - Instruct 對每個選定的提示進行領域分類。
- 根據分類提示的多數投票確定聚類的領域。
- 領域過濾:僅保留標記為醫學或生物學的聚類用於最終數據集。
- 補充數學數據集
- 添加了 15,000 個來自 light - r1 的推理軌跡樣本
- 目的:增強模型的通用推理能力
數據預處理
- 完整生成過濾:僅保留具有完整生成輸出的軌跡。
- 基於長度的過濾:
- 最小閾值:僅保留包含超過 3 個單詞的提示。
- 最大閾值:僅保留單詞數少於 7,143 的軌跡。
- 等待標記過濾:移除包含超過 47 次“Wait”的軌跡(第 97 百分位閾值)。
數據淨化
使用兩步淨化方法:
- 遵循 open - r1 項目:使用 10 - 克與評估數據集對數據集進行淨化。
- 之後,使用
s1k
方法的模糊淨化,閾值為 90%。
我們的管道與評估數據集進行了仔細的淨化處理。
🔧 技術細節
訓練過程
在 SFT 階段和 RL 階段使用了不同的超參數設置,以優化模型性能。SFT 階段注重模型的基礎微調,而 RL 階段則在困難推理數據集上進一步提升模型的推理能力。
數據集處理
對收集到的各種數據集進行了複雜的處理,包括嵌入生成、聚類、領域分類和過濾等步驟,以確保最終數據集的質量和相關性。同時,進行了數據預處理和淨化,提高數據的可用性和模型的泛化能力。
📄 許可證
文檔未提及許可證信息。
引用
@misc{2025II-Medical-7B-Preview,
title={II-Medical-7B-Preview: Medical Reasoning Model},
author={Intelligent Internet},
year={2025}
}
重要提示
- 數據集可能包含來自源材料的固有偏差。
- 醫學知識需要定期更新。
- 請注意,該模型不適合用於醫療用途。
使用建議
- 推薦採樣參數:溫度 = 0.6,top_p = 0.9。
- 使用時,明確請求逐步推理,並將最終答案格式化為 \boxed{}(例如,“請逐步推理,並將最終答案放在 \boxed{} 中。”)。