模型简介
模型特点
模型能力
使用案例
🚀 II-Medical-8B
II-Medical-8B是由Intelligent Internet研发的先进大语言模型,专注于提升AI驱动的医学推理能力。它在前作基础上显著提升了医学问答性能,为医学领域的智能应用带来新的可能。

🚀 快速开始
我们的模型可以像Qwen或Deepseek - R1 - Distill模型一样使用。
例如,你可以使用vLLM轻松启动服务:
vllm serve Intelligent-Internet/II-Medical-8B
你也可以使用SGLang轻松启动服务:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B
✨ 主要特性
- 先进的医学推理能力:专门为增强AI驱动的医学推理而设计,在医学问答方面表现出色。
- 广泛的数据集支持:使用多种公共医学推理数据集、合成医学问答数据、精心策划的医学R1轨迹以及补充数学数据集进行训练。
- 良好的评估表现:在HealthBench上取得了40%的分数,性能可与OpenAI的o1推理模型和GPT - 4.5相媲美。
📦 安装指南
本README未提及具体安装步骤,可参考快速开始部分的启动服务命令。
💻 使用示例
基础用法
使用vLLM启动服务:
vllm serve Intelligent-Internet/II-Medical-8B
使用SGLang启动服务:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B
📚 详细文档
I. 模型概述
II-Medical-8B是Intelligent Internet最新研发的先进大语言模型,旨在增强AI驱动的医学推理能力。继之前的II-Medical-7B-Preview受到好评后,这个新版本显著提升了医学问答的能力。
II. 训练方法
我们收集并生成了一套全面的医学领域推理数据集,并在Qwen/Qwen3 - 8B模型上进行了SFT微调。之后,我们通过在硬推理数据集上训练DAPO进一步优化了SFT模型,以提升性能。
SFT阶段使用的超参数:
- 最大长度:16378。
- 批量大小:128。
- 学习率:5e - 5。
- 训练轮数:8。
RL阶段的训练设置:
- 最大提示长度:2048个标记。
- 最大响应长度:12288个标记。
- 超长缓冲区:启用,4096个标记,惩罚因子1.0。
- 裁剪比率:低0.2,高0.28。
- 批量大小:训练提示512,生成提示1536,小批量32。
- 每个提示的响应数:16。
- 温度:1.0,Top - p:1.0,Top - k:-1(vLLM推出)。
- 学习率:1e - 6,热身步骤:10,权重衰减:0.1。
- 损失聚合:标记均值。
- 梯度裁剪:1.0。
- 熵系数:0。
III. 评估结果
我们的II - Medical - 8B模型在HealthBench上取得了40%的分数,这是一个全面的开源基准,用于评估大语言模型在医疗保健领域的性能和安全性。这一性能可与OpenAI的o1推理模型和GPT - 4.5(OpenAI迄今为止最大、最先进的模型)相媲美。以下是与ChatGPT中可用模型的比较。
HealthBench的详细结果可在这里找到。
我们在十个医学问答基准上进行了评估,包括MedMCQA、MedQA、PubMedQA、来自MMLU - Pro和GPQA的医学相关问题、来自《柳叶刀》和《新英格兰医学杂志》的小问答集、来自MedBullets平台的4选项和5选项拆分以及MedXpertQA。
模型 | MedMC | MedQA | PubMed | MMLU - P | GPQA | Lancet | MedB - 4 | MedB - 5 | MedX | NEJM | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
[HuatuoGPT - o1 - 72B](https://huggingface.co/FreedomIntelligence/HuatuoGPT - o1 - 72B) | 76.76 | 88.85 | 79.90 | 80.46 | 64.36 | 70.87 | 77.27 | 73.05 | 23.53 | 76.29 | 71.13 |
[QWQ 32B](https://huggingface.co/Qwen/QwQ - 32B) | 69.73 | 87.03 | 88.5 | 79.86 | 69.17 | 71.3 | 72.07 | 69.01 | 24.98 | 75.12 | 70.68 |
[Qwen2.5 - 7B - IT](https://huggingface.co/Qwen/Qwen2.5 - 7B - Instruct) | 56.56 | 61.51 | 71.3 | 61.17 | 42.56 | 61.17 | 46.75 | 40.58 | 13.26 | 59.04 | 51.39 |
[HuatuoGPT - o1 - 8B](http://FreedomIntelligence/HuatuoGPT - o1 - 8B) | 63.97 | 74.78 | 80.10 | 63.71 | 55.38 | 64.32 | 58.44 | 51.95 | 15.79 | 64.84 | 59.32 |
[Med - reason](https://huggingface.co/UCSC - VLAA/MedReason - 8B) | 61.67 | 71.87 | 77.4 | 64.1 | 50.51 | 59.7 | 60.06 | 54.22 | 22.87 | 66.8 | 59.92 |
[M1](https://huggingface.co/UCSC - VLAA/m1 - 7B - 23K) | 62.54 | 75.81 | 75.80 | 65.86 | 53.08 | 62.62 | 63.64 | 59.74 | 19.59 | 64.34 | 60.3 |
[II - Medical - 8B - SFT](https://huggingface.co/II - Vietnam/II - Medical - 8B - SFT) | 71.92 | 86.57 | 77.4 | 77.26 | 65.64 | 69.17 | 76.30 | 67.53 | 23.79 | 73.80 | 68.80 |
[II - Medical - 8B](https://huggingface.co/Intelligent - Internet/II - Medical - 8B) | 71.57 | 87.82 | 78.2 | 80.46 | 67.18 | 70.38 | 78.25 | 72.07 | 25.26 | 73.13 | 70.49 |
IV. 数据集整理
训练数据集包含来自以下来源的555,000个样本:
1. 公共医学推理数据集(103,031个样本)
- [通用医学推理](https://huggingface.co/datasets/GeneralReasoning/GeneralThought - 430K):40,544个样本
- [Medical - R1 - Distill - Data](https://huggingface.co/datasets/FreedomIntelligence/Medical - R1 - Distill - Data):22,000个样本
- [Medical - R1 - Distill - Data - Chinese](https://huggingface.co/datasets/FreedomIntelligence/Medical - R1 - Distill - Data - Chinese):17,000个样本
- [UCSC - VLAA/m23k - tokenized](https://huggingface.co/datasets/UCSC - VLAA/m23k - tokenized):23,487个样本
2. 使用QwQ生成的合成医学问答数据(225,700个样本)
从已有的医学数据集生成:
- MedMcQA(来自openlifescienceai/medmcqa):183,000个样本
- MedQA:10,000个样本
- [MedReason](https://huggingface.co/datasets/UCSC - VLAA/MedReason):32,700个样本
3. 精心策划的医学R1轨迹(338,055个样本)
首先,我们从以下来源收集所有公共R1轨迹:
- [PrimeIntellect/SYNTHETIC - 1](https://huggingface.co/collections/PrimeIntellect/synthetic - 1 - 67a2c399cfdd6c9f7fae0c37)
- [GeneralReasoning/GeneralThought - 430K](https://huggingface.co/datasets/GeneralReasoning/GeneralThought - 430K)
- a - m - team/AM - DeepSeek - R1 - Distilled - 1.4M
- [open - thoughts/OpenThoughts2 - 1M](https://huggingface.co/datasets/open - thoughts/OpenThoughts2 - 1M)
- [nvidia/Llama - Nemotron - Post - Training - Dataset](https://huggingface.co/datasets/nvidia/Llama - Nemotron - Post - Training - Dataset):仅科学子集
- 其他资源:[cognitivecomputations/dolphin - r1](https://huggingface.co/datasets/cognitivecomputations/dolphin - r1),[ServiceNow - AI/R1 - Distill - SFT](https://huggingface.co/datasets/ServiceNow - AI/R1 - Distill - SFT),...
所有R1推理轨迹都通过以下特定领域的管道进行处理:
- 嵌入生成:使用sentence - transformers/all - MiniLM - L6 - v2对提示进行嵌入。
- 聚类:执行K - means聚类,聚类数为50,000。
- 领域分类:
- 对于每个聚类,选择距离聚类中心最近的10个提示。
- 使用Qwen2.5 - 32b - Instruct对每个选定的提示进行领域分类。
- 根据分类提示的多数投票为聚类分配领域。
- 领域过滤:仅保留标记为医学或生物学的聚类用于最终数据集。
4. 补充数学数据集
- 从light - r1添加了15,000个推理轨迹样本。
- 目的:增强模型的一般推理能力。
数据预处理
- 完整生成过滤:仅保留具有完整生成输出的轨迹。
- 基于长度的过滤:
- 最小阈值:仅保留包含超过3个单词的提示。
- 等待标记过滤:移除包含超过47次“Wait”的轨迹(第97百分位阈值)。
数据去污
我们使用两步去污方法:
- 遵循[open - r1](https://github.com/huggingface/open - r1)项目:我们使用10 - grams与评估数据集对数据集进行去污。
- 之后,我们使用来自
s1k
方法的模糊去污,阈值为90%。
我们的管道已仔细与评估数据集进行去污处理。
V. 使用指南
- 推荐采样参数:温度 = 0.6,top_p = 0.9。
- 使用时,明确请求逐步推理,并将最终答案格式化为\boxed{}(例如,“请逐步推理,并将最终答案放在\boxed{}中。”)。
VI. 局限性和注意事项
- 数据集可能包含来自源材料的固有偏差。
- 医学知识需要定期更新。
- 请注意,它不适合用于医疗用途。
VII. 引用
@misc{2025II-Medical-8B,
title={II-Medical-8B: Medical Reasoning Model},
author={Intelligent Internet},
year={2025}
}



