S

Self Biorag 7b Olaph

Developed by dmis-lab
基于Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filtered微调的版本,使用HuggingFace MedLFQA(不含kqa_golden)数据集进行直接偏好优化(DPO)训练
Downloads 20
Release Time : 5/22/2024

Model Overview

该模型是一个经过直接偏好优化(DPO)训练的7B参数语言模型,专注于医学领域问答任务,通过强化学习优化了回答质量

Model Features

直接偏好优化
使用DPO算法进行微调,优化模型对高质量回答的偏好
医学领域专注
在医学问答数据集上训练,适合处理专业医学问题
多GPU训练
使用4个GPU进行分布式训练,提高训练效率

Model Capabilities

医学问题回答
专业领域文本生成
偏好学习

Use Cases

医疗健康
医学知识问答系统
构建能够回答专业医学问题的智能助手
在MedLFQA数据集上表现出色
医学教育工具
用于医学生教育和培训的问答系统
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase