模型概述
模型特點
模型能力
使用案例
🚀 II-Medical-8B
II-Medical-8B是由Intelligent Internet研發的先進大語言模型,專注於提升AI驅動的醫學推理能力。它在前作基礎上顯著提升了醫學問答性能,為醫學領域的智能應用帶來新的可能。

🚀 快速開始
我們的模型可以像Qwen或Deepseek - R1 - Distill模型一樣使用。
例如,你可以使用vLLM輕鬆啟動服務:
vllm serve Intelligent-Internet/II-Medical-8B
你也可以使用SGLang輕鬆啟動服務:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B
✨ 主要特性
- 先進的醫學推理能力:專門為增強AI驅動的醫學推理而設計,在醫學問答方面表現出色。
- 廣泛的數據集支持:使用多種公共醫學推理數據集、合成醫學問答數據、精心策劃的醫學R1軌跡以及補充數學數據集進行訓練。
- 良好的評估表現:在HealthBench上取得了40%的分數,性能可與OpenAI的o1推理模型和GPT - 4.5相媲美。
📦 安裝指南
本README未提及具體安裝步驟,可參考快速開始部分的啟動服務命令。
💻 使用示例
基礎用法
使用vLLM啟動服務:
vllm serve Intelligent-Internet/II-Medical-8B
使用SGLang啟動服務:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B
📚 詳細文檔
I. 模型概述
II-Medical-8B是Intelligent Internet最新研發的先進大語言模型,旨在增強AI驅動的醫學推理能力。繼之前的II-Medical-7B-Preview受到好評後,這個新版本顯著提升了醫學問答的能力。
II. 訓練方法
我們收集並生成了一套全面的醫學領域推理數據集,並在Qwen/Qwen3 - 8B模型上進行了SFT微調。之後,我們通過在硬推理數據集上訓練DAPO進一步優化了SFT模型,以提升性能。
SFT階段使用的超參數:
- 最大長度:16378。
- 批量大小:128。
- 學習率:5e - 5。
- 訓練輪數:8。
RL階段的訓練設置:
- 最大提示長度:2048個標記。
- 最大響應長度:12288個標記。
- 超長緩衝區:啟用,4096個標記,懲罰因子1.0。
- 裁剪比率:低0.2,高0.28。
- 批量大小:訓練提示512,生成提示1536,小批量32。
- 每個提示的響應數:16。
- 溫度:1.0,Top - p:1.0,Top - k:-1(vLLM推出)。
- 學習率:1e - 6,熱身步驟:10,權重衰減:0.1。
- 損失聚合:標記均值。
- 梯度裁剪:1.0。
- 熵係數:0。
III. 評估結果
我們的II - Medical - 8B模型在HealthBench上取得了40%的分數,這是一個全面的開源基準,用於評估大語言模型在醫療保健領域的性能和安全性。這一性能可與OpenAI的o1推理模型和GPT - 4.5(OpenAI迄今為止最大、最先進的模型)相媲美。以下是與ChatGPT中可用模型的比較。
HealthBench的詳細結果可在這裡找到。
我們在十個醫學問答基準上進行了評估,包括MedMCQA、MedQA、PubMedQA、來自MMLU - Pro和GPQA的醫學相關問題、來自《柳葉刀》和《新英格蘭醫學雜誌》的小問答集、來自MedBullets平臺的4選項和5選項拆分以及MedXpertQA。
模型 | MedMC | MedQA | PubMed | MMLU - P | GPQA | Lancet | MedB - 4 | MedB - 5 | MedX | NEJM | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
[HuatuoGPT - o1 - 72B](https://huggingface.co/FreedomIntelligence/HuatuoGPT - o1 - 72B) | 76.76 | 88.85 | 79.90 | 80.46 | 64.36 | 70.87 | 77.27 | 73.05 | 23.53 | 76.29 | 71.13 |
[QWQ 32B](https://huggingface.co/Qwen/QwQ - 32B) | 69.73 | 87.03 | 88.5 | 79.86 | 69.17 | 71.3 | 72.07 | 69.01 | 24.98 | 75.12 | 70.68 |
[Qwen2.5 - 7B - IT](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) | 56.56 | 61.51 | 71.3 | 61.17 | 42.56 | 61.17 | 46.75 | 40.58 | 13.26 | 59.04 | 51.39 |
[HuatuoGPT - o1 - 8B](http://FreedomIntelligence/HuatuoGPT - o1 - 8B) | 63.97 | 74.78 | 80.10 | 63.71 | 55.38 | 64.32 | 58.44 | 51.95 | 15.79 | 64.84 | 59.32 |
[Med - reason](https://huggingface.co/UCSC - VLAA/MedReason - 8B) | 61.67 | 71.87 | 77.4 | 64.1 | 50.51 | 59.7 | 60.06 | 54.22 | 22.87 | 66.8 | 59.92 |
[M1](https://huggingface.co/UCSC - VLAA/m1 - 7B - 23K) | 62.54 | 75.81 | 75.80 | 65.86 | 53.08 | 62.62 | 63.64 | 59.74 | 19.59 | 64.34 | 60.3 |
[II - Medical - 8B - SFT](https://huggingface.co/II - Vietnam/II - Medical - 8B - SFT) | 71.92 | 86.57 | 77.4 | 77.26 | 65.64 | 69.17 | 76.30 | 67.53 | 23.79 | 73.80 | 68.80 |
[II - Medical - 8B](https://huggingface.co/Intelligent - Internet/II - Medical - 8B) | 71.57 | 87.82 | 78.2 | 80.46 | 67.18 | 70.38 | 78.25 | 72.07 | 25.26 | 73.13 | 70.49 |
IV. 數據集整理
訓練數據集包含來自以下來源的555,000個樣本:
1. 公共醫學推理數據集(103,031個樣本)
- [通用醫學推理](https://huggingface.co/datasets/GeneralReasoning/GeneralThought - 430K):40,544個樣本
- [Medical - R1 - Distill - Data](https://huggingface.co/datasets/FreedomIntelligence/Medical - R1 - Distill - Data):22,000個樣本
- [Medical - R1 - Distill - Data - Chinese](https://huggingface.co/datasets/FreedomIntelligence/Medical - R1 - Distill - Data - Chinese):17,000個樣本
- [UCSC - VLAA/m23k - tokenized](https://huggingface.co/datasets/UCSC - VLAA/m23k - tokenized):23,487個樣本
2. 使用QwQ生成的合成醫學問答數據(225,700個樣本)
從已有的醫學數據集生成:
- MedMcQA(來自openlifescienceai/medmcqa):183,000個樣本
- MedQA:10,000個樣本
- [MedReason](https://huggingface.co/datasets/UCSC - VLAA/MedReason):32,700個樣本
3. 精心策劃的醫學R1軌跡(338,055個樣本)
首先,我們從以下來源收集所有公共R1軌跡:
- [PrimeIntellect/SYNTHETIC - 1](https://huggingface.co/collections/PrimeIntellect/synthetic - 1 - 67a2c399cfdd6c9f7fae0c37)
- [GeneralReasoning/GeneralThought - 430K](https://huggingface.co/datasets/GeneralReasoning/GeneralThought - 430K)
- a - m - team/AM - DeepSeek - R1 - Distilled - 1.4M
- [open - thoughts/OpenThoughts2 - 1M](https://huggingface.co/datasets/open - thoughts/OpenThoughts2 - 1M)
- [nvidia/Llama - Nemotron - Post - Training - Dataset](https://huggingface.co/datasets/nvidia/Llama - Nemotron - Post - Training - Dataset):僅科學子集
- 其他資源:[cognitivecomputations/dolphin - r1](https://huggingface.co/datasets/cognitivecomputations/dolphin - r1),[ServiceNow - AI/R1 - Distill - SFT](https://huggingface.co/datasets/ServiceNow - AI/R1 - Distill - SFT),...
所有R1推理軌跡都通過以下特定領域的管道進行處理:
- 嵌入生成:使用sentence - transformers/all - MiniLM - L6 - v2對提示進行嵌入。
- 聚類:執行K - means聚類,聚類數為50,000。
- 領域分類:
- 對於每個聚類,選擇距離聚類中心最近的10個提示。
- 使用Qwen2.5 - 32b - Instruct對每個選定的提示進行領域分類。
- 根據分類提示的多數投票為聚類分配領域。
- 領域過濾:僅保留標記為醫學或生物學的聚類用於最終數據集。
4. 補充數學數據集
- 從light - r1添加了15,000個推理軌跡樣本。
- 目的:增強模型的一般推理能力。
數據預處理
- 完整生成過濾:僅保留具有完整生成輸出的軌跡。
- 基於長度的過濾:
- 最小閾值:僅保留包含超過3個單詞的提示。
- 等待標記過濾:移除包含超過47次“Wait”的軌跡(第97百分位閾值)。
數據去汙
我們使用兩步去汙方法:
- 遵循[open - r1](https://github.com/huggingface/open - r1)項目:我們使用10 - grams與評估數據集對數據集進行去汙。
- 之後,我們使用來自
s1k
方法的模糊去汙,閾值為90%。
我們的管道已仔細與評估數據集進行去汙處理。
V. 使用指南
- 推薦採樣參數:溫度 = 0.6,top_p = 0.9。
- 使用時,明確請求逐步推理,並將最終答案格式化為\boxed{}(例如,“請逐步推理,並將最終答案放在\boxed{}中。”)。
VI. 侷限性和注意事項
- 數據集可能包含來自源材料的固有偏差。
- 醫學知識需要定期更新。
- 請注意,它不適合用於醫療用途。
VII. 引用
@misc{2025II-Medical-8B,
title={II-Medical-8B: Medical Reasoning Model},
author={Intelligent Internet},
year={2025}
}



