模型简介
模型特点
模型能力
使用案例
🚀 Med42 - 临床大语言模型
Med42是由M42开发的一个开放访问的临床大语言模型(LLM),旨在扩大医学知识的获取途径。该生成式AI系统基于LLaMA - 2构建,拥有700亿参数,能够为医学问题提供高质量的答案。
🚀 快速开始
模型获取
本模型的使用受M42 Health许可证的约束。若要下载模型权重(和分词器),请阅读Med42许可证,并通过此处申请访问以接受我们的许可证。
使用示例
为了获得模型的预期特性和性能,需要遵循特定的格式,包括<|system|>
、<|prompter|>
和<|assistant|>
标签。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "m42-health/med42-70b"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
prompt = "What are the symptoms of diabetes ?"
prompt_template=f'''
<|system|>: You are a helpful medical assistant created by M42 Health in the UAE.
<|prompter|>:{prompt}
<|assistant|>:
'''
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True,eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id, max_new_tokens=512)
print(tokenizer.decode(output[0]))
✨ 主要特性
- 基于LLaMA - 2构建,拥有700亿参数,能提供高质量医学问题答案。
- 在多个医学基准测试中取得有竞争力的成绩,如MedQA、MedMCQA等。
- 可用于医疗问答、患者记录总结、辅助医疗诊断和一般健康问答等场景。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "m42-health/med42-70b"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
prompt = "What are the symptoms of diabetes ?"
prompt_template=f'''
<|system|>: You are a helpful medical assistant created by M42 Health in the UAE.
<|prompter|>:{prompt}
<|assistant|>:
'''
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True,eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id, max_new_tokens=512)
print(tokenizer.decode(output[0]))
高级用法
文档未提及高级用法代码示例,故跳过此部分。
📚 详细文档
模型详情
从基础的LLaMa - 2模型开始,Med42在一个约25亿标记的数据集上进行了指令调优,该数据集由不同的开放访问源编译而成,包括医学抽认卡、考试问题和开放领域对话。
属性 | 详情 |
---|---|
模型开发者 | M42 Health AI团队 |
微调基础模型 | Llama - 2 - 70B |
上下文长度 | 4k标记 |
输入 | 仅文本数据 |
输出 | 模型仅生成文本 |
状态 | 这是一个在离线数据集上训练的静态模型。随着我们提升模型性能,未来将发布调优模型的新版本。 |
许可证 | 自定义许可证可在此处获取 |
研究论文 | Med42 - Evaluating Fine - Tuning Strategies for Medical LLMs: Full - Parameter vs. Parameter - Efficient Approaches |
预期用途
Med42作为一个AI助手,可用于进一步测试和评估,以增强临床决策能力,并扩大医疗保健领域对大语言模型的使用。潜在用例包括:
- 医疗问题解答
- 患者记录总结
- 辅助医疗诊断
- 一般健康问答
硬件和软件
训练过程在Condor Galaxy 1(CG - 1)超级计算机平台上进行。
评估结果
Med42在多个医学基准测试中取得了有竞争力的性能,包括MedQA、MedMCQA、PubMedQA、HeadQA和衡量大规模多任务语言理解(MMLU)临床主题。到目前为止,所有报告的评估都使用[EleutherAI的评估工具库](https://github.com/EleutherAI/lm - evaluation - harness),并报告零样本准确率(除非另有说明)。我们将其性能与其他模型(ClinicalCamel - 70B、GPT - 3.5、GPT - 4.0、Med - PaLM 2)进行了比较。
数据集 | Med42 | ClinicalCamel - 70B | GPT - 3.5 | GPT - 4.0 | Med - PaLM - 2 (5 - shot)* |
---|---|---|---|---|---|
MMLU临床知识 | 74.3 | 69.8 | 69.8 | 86.0 | 88.3 |
MMLU大学生物学 | 84.0 | 79.2 | 72.2 | 95.1 | 94.4 |
MMLU大学医学 | 68.8 | 67.0 | 61.3 | 76.9 | 80.9 |
MMLU医学遗传学 | 86.0 | 69.0 | 70.0 | 91.0 | 90.0 |
MMLU专业医学 | 79.8 | 71.3 | 70.2 | 93.0 | 95.2 |
MMLU解剖学 | 67.4 | 62.2 | 56.3 | 80.0 | 77.8 |
MedMCQA | 60.9 | 47.0 | 50.1 | 69.5 | 71.3 |
MedQA | 61.5 | 53.4 | 50.8 | 78.9 | 79.7 |
USMLE自我评估 | 71.7 | - | 49.1 | 83.8 | - |
USMLE样本考试 | 72.0 | 54.3 | 56.9 | 84.3 | - |
*我们注意到Med - PaLM 2未报告零样本性能。更多详细信息可在https://github.com/m42health/med42找到。
关键性能指标
- Med42在美国医学执照考试(USMLE)样本考试中达到了72%的准确率,超过了公开可用的医学大语言模型中的先前最优水平。
- 在MedQA数据集上达到61.5%的准确率(相比之下,GPT - 3.5为50.8%)。
- 在MMLU临床主题上的性能始终高于GPT - 3.5。
🔧 技术细节
文档未提及足够的技术实现细节,故跳过此章节。
📄 许可证
Med42使用自定义许可证,可在此处获取。
⚠️ 注意事项
局限性与安全使用
- Med42尚未准备好用于实际临床应用。为确保安全,正在进行广泛的人工评估。
- 存在生成不正确或有害信息的可能性。
- 有延续训练数据中偏差的风险。
请负责任地使用此模型!在未进行严格安全测试的情况下,请勿将其用于医疗用途。
访问Med42和报告问题
请通过以下方式之一报告任何软件“漏洞”或其他问题:
- 报告模型问题:https://github.com/m42health/med42
- 报告模型生成的风险内容、漏洞和/或任何安全问题:https://forms.office.com/r/YMJu3kcKat
- M42的隐私政策可在[https://m42.ae/privacy - policy/](https://m42.ae/privacy - policy/)查看。
- 报告违反可接受使用政策或未经授权使用Med42的情况:med42@m42.ae
引用
我们的论文已发表在AAAI 2024春季研讨会 - 临床基础模型上,可在arXiv上获取:https://arxiv.org/abs/2404.14779
@article{christophe2024med42,
title={Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches},
author={Clément Christophe and Praveen K Kanithi and Prateek Munjal and Tathagata Raha and Nasir Hayat and Ronnie Rajan and Ahmed Al-Mahrooqi and Avani Gupta and Muhammad Umar Salman and Gurpreet Gosal and Bhargav Kanakiya and Charles Chen and Natalia Vassilieva and Boulbaba Ben Amor and Marco AF Pimentel and Shadab Khan},
year={2024},
eprint={2404.14779},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
⚠️ 重要提示
本模型使用受M42 Health许可证约束,使用前请阅读并接受相关许可证条款。
💡 使用建议
在使用模型时,请遵循特定的格式,包括
<|system|>
、<|prompter|>
和<|assistant|>
标签,以获得预期的特性和性能。同时,在未进行严格安全测试的情况下,请勿将其用于医疗用途。



