🚀 II-Medical-7B-Preview
II-Medical-7B-Previewは、包括的な医療知識データセットを用いて訓練された医療推論モデルです。このモデルは、医療分野におけるAIの能力を向上させることを目的としています。
🚀 クイックスタート
II-Medical-7B-Previewモデルは、QwenやDeepseek-R1-Distillモデルと同じ方法で利用できます。
例えば、vLLMを使用して簡単にサービスを起動できます。
vllm serve Intelligent-Internet/II-Medical-7B-Preview
また、SGLangを使用しても簡単にサービスを起動できます。
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-7B-Preview
✨ 主な機能
II-Medical-7B-Previewは、医療知識を用いた推論能力に特化したモデルです。包括的な医療データセットを用いて訓練されており、様々な医療QAベンチマークで高い性能を発揮します。
📦 インストール
本モデルのインストールについては、上記の「クイックスタート」セクションに記載の通り、vLLMやSGLangを使用してサービスを起動することで利用できます。
💻 使用例
基本的な使用法
vllm serve Intelligent-Internet/II-Medical-7B-Preview
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-7B-Preview
📚 ドキュメント
I. モデル概要
II-Medical-7B-Previewは、包括的なデータセットの医療知識を用いて訓練された医療推論モデルです。このモデルは、医療分野におけるAIの能力を向上させることを目的としています。

II. 訓練方法
医療分野の包括的な推論データセットを収集・生成し、Qwen/Qwen2.5-7B-Instructモデルに対してSFT微調整を行いました。その後、難しい推論データセットでDAPOを訓練することで、SFTモデルをさらに最適化し、性能を向上させました。
SFT段階では、以下のハイパーパラメータを使用しました。
- 最大長: 16378
- バッチサイズ: 128
- 学習率: 5e-5
- エポック数: 4
RL段階では、以下の設定で訓練を行いました。
- 最大プロンプト長: 2048トークン
- 最大応答長: 12288トークン
- 長文バッファ: 有効、4096トークン、ペナルティ係数1.0
- クリップ比率: 下限0.2、上限0.28
- バッチサイズ: 訓練プロンプト512、生成プロンプト1536、ミニバッチ32
- プロンプトあたりの応答数: 16
- 温度: 1.0、Top-p: 1.0、Top-k: -1 (vLLMロールアウト)
- 学習率: 1e-6、ウォームアップステップ: 10、重み減衰: 0.1
- 損失集約: トークン平均
- 勾配クリッピング: 1.0
- エントロピー係数: 0
III. 評価結果
10の医療QAベンチマークで評価を行いました。これには、MedMCQA、MedQA、PubMedQA、MMLU-ProとGPQAの医療関連質問、LancetとNew England Journal of Medicineの小規模QAセット、MedBulletsプラットフォームの4選択と5選択の分割、およびMedXpertQAが含まれます。
モデル |
MedMC |
MedQA |
PubMed |
MMLU-P |
GPQA |
Lancet |
MedB-4 |
MedB-5 |
MedX |
NEJM |
平均 |
QWQ 32B |
69.73 |
87.03 |
88.5 |
79.86 |
69.17 |
71.3 |
72.07 |
69.01 |
24.98 |
75.12 |
70.68 |
Qwen2.5-7B-IT |
56.56 |
61.51 |
71.3 |
61.17 |
42.56 |
61.17 |
46.75 |
40.58 |
13.26 |
59.04 |
51.39 |
HuatuoGPT-o1-8B |
63.97 |
74.78 |
80.10 |
63.71 |
55.38 |
64.32 |
58.44 |
51.95 |
15.79 |
64.84 |
59.32 |
Med-reason |
61.67 |
71.87 |
77.4 |
64.1 |
50.51 |
59.7 |
60.06 |
54.22 |
22.87 |
66.8 |
59.92 |
M1 |
62.54 |
75.81 |
75.80 |
65.86 |
53.08 |
62.62 |
63.64 |
59.74 |
19.59 |
64.34 |
60.3 |
II-Medical-7B-Preview-Wo-RL |
69.13 |
84.05 |
77.5 |
73.49 |
55.12 |
67.71 |
69.48 |
64.28 |
19.51 |
70.64 |
65.1 |
II-Medical-7B-Preview |
69.42 |
85.15 |
77.9 |
77.26 |
55.90 |
65.29 |
72.72 |
68.50 |
22.97 |
68.66 |
66.4 |
IV. データセットの作成
訓練データセットは、以下のソースからの555,000サンプルで構成されています。
1. 公開医療推論データセット (103,031サンプル)
- 一般医療推論: 40,544サンプル
- Medical-R1-Distill-Data: 22,000サンプル
- Medical-R1-Distill-Data-Chinese: 17,000サンプル
- UCSC-VLAA/m23k-tokenized: 23,487サンプル
2. QwQを用いた合成医療QAデータ (225,700サンプル)
既存の医療データセットから生成されました。
- MedMcQA (openlifescienceai/medmcqaから): 183,000サンプル
- MedQA: 10,000サンプル
- MedReason: 32,700サンプル
3. 精選された医療R1トレース (338,055サンプル)
まず、以下のソースからすべての公開R1トレースを収集しました。
- PrimeIntellect/SYNTHETIC-1
- GeneralReasoning/GeneralThought-430K
- a-m-team/AM-DeepSeek-R1-Distilled-1.4M
- open-thoughts/OpenThoughts2-1M
- nvidia/Llama-Nemotron-Post-Training-Dataset: 科学サブセットのみ
- その他のリソース: cognitivecomputations/dolphin-r1、ServiceNow-AI/R1-Distill-SFT、...
すべてのR1推論トレースは、以下のドメイン固有のパイプラインを通じて処理されました。
- 埋め込み生成: プロンプトは、sentence-transformers/all-MiniLM-L6-v2を使用して埋め込まれます。
- クラスタリング: 50,000クラスタでK-meansクラスタリングを行います。
- ドメイン分類:
- 各クラスタについて、クラスタ中心に最も近い10個のプロンプトを選択します。
- 選択された各プロンプトのドメインを、Qwen2.5-32b-Instructを使用して分類します。
- 分類されたプロンプトの多数決に基づいて、クラスタのドメインを割り当てます。
- ドメインフィルタリング: 最終データセットには、医療または生物学とラベル付けされたクラスタのみを残します。
4. 補足数学データセット
- light-r1からの15,000サンプルの推論トレースを追加しました。
- 目的: モデルの一般的な推論能力を向上させること
データの前処理
- 完全生成のためのフィルタリング
- 長さベースのフィルタリング
- 最小閾値: 3単語以上のプロンプトのみを残しました。
- 最大閾値: 7,143単語未満のトレースのみを残しました。
- 待機トークンフィルタ: "Wait"が47回以上出現するトレースを削除しました (97パーセンタイル閾値)。
データの浄化
2段階の浄化を行いました。
- open-r1プロジェクトに従って、評価データセットとの10-gramを使用してデータセットを浄化しました。
- その後、
s1k
メソッドのファジー浄化を閾値90%で使用しました。
私たちのパイプラインは、評価データセットと慎重に浄化されています。
V. 使用ガイドライン
- 推奨サンプリングパラメータ: temperature = 0.6、top_p = 0.9
- 使用時には、明示的にステップバイステップの推論を要求し、最終的な答えを\boxed{}内に整形してください (例: "Please reason step-by-step, and put your final answer within \boxed{}.").
VI. 制限事項と考慮事項
- データセットには、ソース材料に固有のバイアスが含まれる可能性があります。
- 医療知識は定期的な更新が必要です。
- 医療用途には適していません。
VII. 引用
@misc{2025II-Medical-7B-Preview,
title={II-Medical-7B-Preview: Medical Reasoning Model},
author={Intelligent Internet},
year={2025}
}