Q

Qwen3 8B Grpo Medmcqa

由mlxha開發
基於Qwen/Qwen3-8B在medmcqa-grpo數據集上微調的版本,專注於醫學選擇題回答任務
下載量 84
發布時間 : 5/8/2025

模型概述

該模型是基於Qwen/Qwen3-8B在medmcqa-grpo數據集上使用TRL和GRPO方法微調的版本,主要用於醫學領域的選擇題回答任務

模型特點

GRPO訓練方法
採用GRPO(Generalized Reinforcement Policy Optimization)方法訓練,該方法首次發表於DeepSeekMath論文
醫學領域優化
在medmcqa-grpo醫學選擇題數據集上微調,針對醫學領域問題有更好的表現
TRL框架訓練
使用TRL(Transformer Reinforcement Learning)框架進行訓練

模型能力

醫學選擇題回答
文本生成
醫學知識推理

使用案例

醫學教育
醫學考試輔助
幫助醫學生準備醫學考試中的選擇題部分
醫學知識問答
回答醫學相關選擇題,提供解釋和推理過程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase