Llama 3 8B UltraMedical
专注于生物医学领域的开源大语言模型,提升医学考试辅助、文献理解与临床知识应用能力
下载量 1,380
发布时间 : 4/27/2024
模型简介
基于Meta的Llama-3-8B模型,采用包含41万条合成与人工标注样本的超医学数据集训练而成,在多个医学基准测试中表现优异
模型特点
医学专业能力
在MedQA、MedMCQA、PubMedQA和MMLU-Medical等主流医学基准测试中表现优异
高质量训练数据
采用包含41万条合成与人工标注样本的超医学数据集训练
开源可访问
基于开源Llama-3-8B模型,遵循Meta Llama-3 License
模型能力
医学问答
医学文献理解
临床知识应用
医学考试辅助
使用案例
医学教育
医学考试准备
帮助医学生准备各类医学考试
在MedQA等基准测试中表现优异
临床辅助
临床决策支持
为医生提供临床决策参考
医学研究
文献理解与分析
帮助研究人员快速理解医学文献
🚀 Llama-3-8B-UltraMedical
Llama-3-8B-UltraMedical是由清华大学C3I实验室开发的一款专注于生物医学领域的开放访问大语言模型(LLM)。该模型基于Meta的Llama-3-8B构建,旨在提升医疗检查的可及性、医学文献的理解能力以及临床知识的应用水平。它在多个医学基准测试中取得了优异成绩,显著超越了Flan-PaLM、OpenBioLM-8B等模型。
你可以在我们的🤗 Huggingface空间演示中体验该模型!
🚀 快速开始
模型信息
属性 | 详情 |
---|---|
模型类型 | 基于Meta的Llama-3-8B微调的生物医学大语言模型 |
训练数据 | UltraMedical数据集,包含410,000个多样化条目,涵盖合成样本和人工整理样本 |
许可证 | Meta Llama-3许可证 |
微调基础模型 | Meta-Llama-3-8B |
使用示例
基础用法
此模型使用Llama-3默认的聊天模板,且无需系统提示。以下是多项选择题、PubMedQA和开放式问题的输入示例:
⚠️ 重要提示
若要复现我们在医学问答基准测试中的评估结果,建议使用以下格式来组织问题和多项选择选项。
- MedQA和MedMCQA的输入示例:
一名42岁的无家可归男子在公园被发现昏迷后被送往急诊室。他呼吸中有酒精味,已知有慢性酗酒史。头部非对比CT扫描正常。患者因急性酒精中毒接受治疗并入院。第二天,患者要求出院。他的生命体征为脉搏120次/分钟,呼吸频率22次/分钟,血压136/88 mmHg。体格检查发现,患者神志不清、烦躁不安,且大量出汗,尤其是手掌。全身皮肤苍白。治疗该患者最可能病情的推荐药物的作用机制是什么?
A. 它增加GABA门控氯离子通道开放的持续时间。
B. 它增加GABA门控氯离子通道开放的频率。
C. 它减少GABA门控氯离子通道开放的频率。
D. 它减少GABA门控氯离子通道开放的持续时间。
- PubMedQA的输入示例:我们采用类似于MedPrompt的多项选择格式来组织上下文和问题。
背景:小儿胶质母细胞瘤是一种临床预后极差的恶性疾病。患者通常对放射治疗有抵抗性,因此靶向药物治疗可能是胶质母细胞瘤治疗的一种新可能性。存活素在胶质母细胞瘤中也过度表达。YM155是一种新型小分子存活素抑制剂,尚未在胶质母细胞瘤治疗中进行研究。
背景:本研究使用了表达正常DNA依赖性蛋白激酶(DNA-PK)活性且对放射有抗性的人胶质母细胞瘤细胞系M059K,以及缺乏DNA-PK活性且对放射敏感的M059J细胞系。分别使用MTT(甲基噻唑基二苯基四唑鎓)测定、ELISA测定和蛋白质印迹分析来检测YM155处理后细胞活力、DNA片段化以及存活素和分离酶的表达。
背景:YM155引起浓度依赖性的细胞毒性作用,在50 nM YM155处理48小时后,抑制了M059K和M059J细胞的细胞活力达70%。两种细胞系的半数最大抑制浓度(IC50)约为30 - 35 nM。由于在30 nM YM155处理24小时后细胞质中DNA片段的免疫反应信号增加,因此确定两种细胞系均发生了凋亡。M059K细胞中存活素和分离酶的表达高于M059J细胞。在两种细胞系中,30 nM YM155处理24小时和48小时均显著抑制了存活素和分离酶的表达。
新型存活素抑制剂YM155是否会在具有正常或缺乏DNA依赖性蛋白激酶活性的胶质母细胞瘤细胞系中引发细胞毒性?
A. 可能
B. 是
C. 否
- 开放式问题的输入示例:
医生你好,我叫Chaitanya,28岁,来自海得拉巴。我的问题是……我在第一次怀孕时得了甲状腺疾病。我的预产期是2009年7月24日,但在7月6日凌晨7点左右突然大量出血,我赶紧去了医院,但他们没能保住孩子(男孩)……我失去了第一个孩子。6个月后我再次怀孕,但医生说孩子有一些心脏问题,问题的严重程度要等孩子出生后才能知道,我应该进行计划分娩。医生在2010年10月21日进行了剖腹产。医生说孩子的问题不是很严重,但这是一个心脏问题,所以我们需要观察7天。第5天孩子去世了。我想知道是不是我有什么问题才会发生这样的事情……我在计划下次怀孕前需要做什么检查吗?到目前为止我已经做了两次剖腹产。我下次怀孕的机会有多大?我需要等多久才能计划下次怀孕?
研究主要用于脂质调节的他汀类药物对免疫调节途径的机制影响,重点在于阐明它们在管理心血管疾病患者临床结局方面的治疗作用,包括讨论对动脉粥样硬化疾病进展的影响。
高级用法
使用vLLM进行推理的代码示例:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
llm = LLM(model="TsinghuaC3I/Llama-3-8B-UltraMedical", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("TsinghuaC3I/Llama-3-8B-UltraMedical")
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=1024, stop=["<|eot_id|>"])
messages = [
{"role": "user", "content": """上述输入示例中使用的问题格式。"""},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(prompts[0])
"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{question}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""
outputs = llm.generate(prompts=prompts, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
⚠️ 重要提示
此版本的模型仅支持单轮对话,在多轮对话方面的能力有限。我们计划在下一次更新中改进这一点。
评估结果
Llama-3-8B-UltraMedical在多个流行的医学基准测试(包括MedQA、MedMCQA、PubMedQA和MMLU-Medical)中,在7B级模型中取得了最佳平均成绩。以下是详细的评估结果:
发布日期 | 模型 | 平均分 | MedQA | MedMCQA | PubMedQA | MMLU.CK | MMLU.MG | MMLU.An | MMLU.PM | MMLU.CB | MMLU.CM |
---|---|---|---|---|---|---|---|---|---|---|---|
2024.04 | Llama-3-8B-UltraMedical (Ensemble) | 77.77 | 77.5 | 63.8 | 78.2 | 77.4 | 88.0 | 74.8 | 84.6 | 79.9 | 75.7 |
2024.04 | Llama-3-8B-UltraMedical (Greedy) | 75.20 | 73.3 | 61.5 | 77.0 | 78.9 | 78.0 | 74.1 | 83.8 | 78.5 | 71.7 |
2024.04 | OpenBioLM-8B | 72.48 | 59.0 | 56.9 | 74.1 | 76.1 | 86.1 | 69.8 | 78.2 | 84.2 | 68.0 |
2024.04 | Llama-3-8B-Instruct (Ensemble) | 71.23 | 62.4 | 56.5 | 75.8 | 72.5 | 84.0 | 71.1 | 70.6 | 80.6 | 67.6 |
2024.04 | Llama-3-8B-Instruct (Greedy) | 68.56 | 60.9 | 50.7 | 73.0 | 72.1 | 76.0 | 63.0 | 77.2 | 79.9 | 64.2 |
2024.04 | Internist-7B | 67.79 | 60.5 | 55.8 | 79.4 | 70.6 | 71.0 | 65.9 | 76.1 | - | 63.0 |
2024.02 | Gemma-7B | 64.18 | 47.2 | 49.0 | 76.2 | 69.8 | 70.0 | 59.3 | 66.2 | 79.9 | 60.1 |
2024.03 | Meerkat-7B (Ensemble) | 63.94 | 74.3 | 60.7 | - | 61.9 | 70.4 | 61.5 | 69.5 | 55.4 | 57.8 |
2023.03 | MedAlpaca | 58.03 | 41.7 | 37.5 | 72.8 | 57.4 | 69.0 | 57.0 | 67.3 | 65.3 | 54.3 |
2024.02 | BioMistral-7B | 57.26 | 46.6 | 45.7 | 68.1 | 63.1 | 63.3 | 49.9 | 57.4 | 63.4 | 57.8 |
表中说明:
- 对于MedQA,我们使用美国数据集的4个选项;对于MedMCQA,我们使用开发集;对于PubMedQA,我们使用需要推理的数据集。
- 对于MMLU,我们包括临床知识(CK)、医学遗传学(MG)、解剖学(An)、专业医学(PM)、大学生物学(CB)和大学医学(CM),以与先前的研究保持一致。
- 贪婪搜索是我们默认的解码策略。我们用
(Ensemble)
表示具有自一致性的集成分数。在我们的实验中,我们进行10次解码试验,并通过多数投票做出最终决策(温度=0.7,top_p=0.9)。 - 7B预训练模型的部分结果来自开放医学大语言模型排行榜。
训练细节
该模型使用全参数和完全分片数据并行(FSDP)框架进行训练。训练过程在8个A6000 GPU上进行了约50小时。 超参数设置如下:
- torch类型:bfloat16
- 训练轮数:3
- 学习率:2e-5
- 学习率调度器类型:余弦
- 热身比例:0.04
- 最大长度:1024
- 全局批量大小:128
局限性与安全使用
虽然我们的模型具有良好的性能,但由于可能存在幻觉问题,在实际临床环境中使用时必须谨慎。幻觉是指模型生成不正确或误导性信息的情况,这可能会在临床决策中带来重大风险。建议用户使用可信的医学来源和专家咨询来验证模型的输出,以确保安全性和准确性。
引用
如果您使用了该模型,请引用以下文献:
@misc{UltraMedical,
author = {Zhang, Kaiyan and Ding, Ning and Qi, Biqing and Zeng, Sihang and Li, Haoxin and Zhu, Xuekai and Chen, Zhang-Ren and Zhou, Bowen},
title = {UltraMedical: Building Specialized Generalists in Biomedicine.},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/TsinghuaC3I/UltraMedical}},
}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98