MedQwen3B - Reasonerオープンソース医学モデル - 医学的推理と数学問題解決を無料でサポート

Medqwen3b Reasoner

hooman650によって開発

Qwen2.5-3B-Instructを基にした医学分野専用モデル、医学推論と数学問題解決に優れる

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #医学推論強化 #構造化思考連鎖 #GRPO微調整

ダウンロード数 156

リリース時間 : 2/8/2025

モデル概要

MedQwen3B-ReasonerはQwen2.5-3B-Instructの専用バリアントで、GRPOを用いて微調整されており、医学分野の推論に優れ、同時に強力な数学問題解決能力を保持しています。このモデルは強化された推論能力を示し、適切な場合には不確実性を表現することができます。

モデル特徴

医学分野の専門性

医学分野の推論に特化し、複雑な医学問題や研究分析を処理可能

数学推論能力

強力な数学問題解決能力を保持し、数学推論問題を処理可能

不確実性表現

適切な場合に不確実性を表現し、'可能性'などの語彙を使用

構造化推論出力

明確な段階的な説明を提供し、出力形式が構造化されている

コンパクトサイズ

30億パラメータ規模で、強力な性能を維持しながらコンパクト

モデル能力

医学分野推論

数学問題解決

構造化テキスト生成

研究分析

臨床意思決定支援

使用事例

医学研究

医学研究分析

遺伝子発現と疾病再発の関係など、医学研究データを分析

研究データを正確に分析し結論を導出可能

数学問題

数学推論

計算や論理推論などの数学問題を解決

数学問題を正しく解答し詳細な推論過程を提供可能

臨床意思決定

臨床意思決定支援

ワクチン接種戦略などの臨床意思決定アドバイスを提供

合理的な臨床意思決定アドバイスを提供可能

🚀 MedQwen3B-Reasoner: 数学強化トレーニングによる医療分野の推論

MedQwen3B-Reasonerは、Qwen2.5-3B-Instructの特殊バリアントで、GRPOを使用して微調整され、強力な数学的問題解決能力を維持しながら、医療分野の推論に特化しています。このモデルは、強化された推論能力を示し、適切な場合に不確実性を表現することができます。

MedQwen3B Training Process

🚀 クイックスタート

MedQwen3B-Reasonerは、医療分野の推論と数学的問題解決能力を兼ね備えたモデルです。以下の手順で使用を開始できます。

モデルの初期化

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "hooman650/MedQwen3B-Reasoner"

# モデルとトークナイザーの初期化
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# プロンプトの準備
prompt = "What is the relationship between BMI and cardiovascular disease risk?"
messages = [
    {"role": "system", "content": "\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

# 応答の生成
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主な機能

医療分野の専門知識と数学的推論能力を兼ね備えています。
"maybe"という応答で不確実性を表現することができます。
構造化された推論出力で、明確なステップバイステップの説明が可能です。
コンパクトなサイズ（30億パラメータ）で、高いパフォーマンスを維持しています。
GRPO（Group Relative Policy Optimization）を使用して483ステップでトレーニングされています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "hooman650/MedQwen3B-Reasoner"

# モデルとトークナイザーの初期化
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# プロンプトの準備
prompt = "What is the relationship between BMI and cardiovascular disease risk?"
messages = [
    {"role": "system", "content": "\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

# 応答の生成
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

高度な使用法

# 複数のプロンプトを連続で処理する例
prompts = [
    "What is the relationship between BMI and cardiovascular disease risk?",
    "How does smoking affect lung health?"
]

for prompt in prompts:
    messages = [
        {"role": "system", "content": "\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n"},
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    print(f"Prompt: {prompt}")
    print(f"Response: {response}")

📚 ドキュメント

重要事項

⚠️ 重要提示

ollama、llama-cpp、vllmまたはその他の推論エンジンを使用する場合、以下のシステムプロンプトを設定する必要があります。このモデルは、以下のプロンプトで最適な性能を発揮します。

'\nRespond in the following format:\n<reasoning>\n...\n</reasoning>\n<answer>\n...\n</answer>\n'

独自トレーニングに興味がある場合

こちらの記事を読むか、ノートブックを参照してください。

トレーニングデータ

このモデルは、以下のデータセットを組み合わせてトレーニングされています。

データセット	割合	詳細
PubMedQA	70%	医療分野のデータ
GSM8K	30%	数学的推論のデータ
Health Benchmarks	30%	医療ベンチマークのデータ

モデルの詳細

属性	詳情
ベースモデル	unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit
トレーニングステップ	483
ライブラリ	Unsloth
ライセンス	Apache 2.0

引用

このモデルを研究で使用する場合は、以下のように引用してください。

@misc {hooman_sedghamiz_2025,
	author       = { {Hooman Sedghamiz} },
	title        = { MedQwen3B-Reasoner (Revision 5dbc982) },
	year         = 2025,
	url          = { https://huggingface.co/hooman650/MedQwen3B-Reasoner },
	doi          = { 10.57967/hf/4415 },
	publisher    = { Hugging Face }
}