S

Self Biorag 7b Olaph

由dmis-lab開發
基於Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filtered微調的版本,使用HuggingFace MedLFQA(不含kqa_golden)數據集進行直接偏好優化(DPO)訓練
下載量 20
發布時間 : 5/22/2024

模型概述

該模型是一個經過直接偏好優化(DPO)訓練的7B參數語言模型,專注於醫學領域問答任務,通過強化學習優化了回答質量

模型特點

直接偏好優化
使用DPO算法進行微調,優化模型對高質量回答的偏好
醫學領域專注
在醫學問答數據集上訓練,適合處理專業醫學問題
多GPU訓練
使用4個GPU進行分佈式訓練,提高訓練效率

模型能力

醫學問題回答
專業領域文本生成
偏好學習

使用案例

醫療健康
醫學知識問答系統
構建能夠回答專業醫學問題的智能助手
在MedLFQA數據集上表現出色
醫學教育工具
用於醫學生教育和培訓的問答系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase