Llama 3 8B UltraMedical
專注於生物醫學領域的開源大語言模型,提升醫學考試輔助、文獻理解與臨床知識應用能力
下載量 1,380
發布時間 : 4/27/2024
模型概述
基於Meta的Llama-3-8B模型,採用包含41萬條合成與人工標註樣本的超醫學數據集訓練而成,在多個醫學基準測試中表現優異
模型特點
醫學專業能力
在MedQA、MedMCQA、PubMedQA和MMLU-Medical等主流醫學基準測試中表現優異
高質量訓練數據
採用包含41萬條合成與人工標註樣本的超醫學數據集訓練
開源可訪問
基於開源Llama-3-8B模型,遵循Meta Llama-3 License
模型能力
醫學問答
醫學文獻理解
臨床知識應用
醫學考試輔助
使用案例
醫學教育
醫學考試準備
幫助醫學生準備各類醫學考試
在MedQA等基準測試中表現優異
臨床輔助
臨床決策支持
為醫生提供臨床決策參考
醫學研究
文獻理解與分析
幫助研究人員快速理解醫學文獻
🚀 Llama-3-8B-UltraMedical
Llama-3-8B-UltraMedical是由清華大學C3I實驗室開發的一款專注於生物醫學領域的開放訪問大語言模型(LLM)。該模型基於Meta的Llama-3-8B構建,旨在提升醫療檢查的可及性、醫學文獻的理解能力以及臨床知識的應用水平。它在多個醫學基準測試中取得了優異成績,顯著超越了Flan-PaLM、OpenBioLM-8B等模型。
你可以在我們的🤗 Huggingface空間演示中體驗該模型!
🚀 快速開始
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於Meta的Llama-3-8B微調的生物醫學大語言模型 |
訓練數據 | UltraMedical數據集,包含410,000個多樣化條目,涵蓋合成樣本和人工整理樣本 |
許可證 | Meta Llama-3許可證 |
微調基礎模型 | Meta-Llama-3-8B |
使用示例
基礎用法
此模型使用Llama-3默認的聊天模板,且無需系統提示。以下是多項選擇題、PubMedQA和開放式問題的輸入示例:
⚠️ 重要提示
若要復現我們在醫學問答基準測試中的評估結果,建議使用以下格式來組織問題和多項選擇選項。
- MedQA和MedMCQA的輸入示例:
一名42歲的無家可歸男子在公園被發現昏迷後被送往急診室。他呼吸中有酒精味,已知有慢性酗酒史。頭部非對比CT掃描正常。患者因急性酒精中毒接受治療併入院。第二天,患者要求出院。他的生命體徵為脈搏120次/分鐘,呼吸頻率22次/分鐘,血壓136/88 mmHg。體格檢查發現,患者神志不清、煩躁不安,且大量出汗,尤其是手掌。全身皮膚蒼白。治療該患者最可能病情的推薦藥物的作用機制是什麼?
A. 它增加GABA門控氯離子通道開放的持續時間。
B. 它增加GABA門控氯離子通道開放的頻率。
C. 它減少GABA門控氯離子通道開放的頻率。
D. 它減少GABA門控氯離子通道開放的持續時間。
- PubMedQA的輸入示例:我們採用類似於MedPrompt的多項選擇格式來組織上下文和問題。
背景:小兒膠質母細胞瘤是一種臨床預後極差的惡性疾病。患者通常對放射治療有抵抗性,因此靶向藥物治療可能是膠質母細胞瘤治療的一種新可能性。存活素在膠質母細胞瘤中也過度表達。YM155是一種新型小分子存活素抑制劑,尚未在膠質母細胞瘤治療中進行研究。
背景:本研究使用了表達正常DNA依賴性蛋白激酶(DNA-PK)活性且對放射有抗性的人膠質母細胞瘤細胞系M059K,以及缺乏DNA-PK活性且對放射敏感的M059J細胞系。分別使用MTT(甲基噻唑基二苯基四唑鎓)測定、ELISA測定和蛋白質印跡分析來檢測YM155處理後細胞活力、DNA片段化以及存活素和分離酶的表達。
背景:YM155引起濃度依賴性的細胞毒性作用,在50 nM YM155處理48小時後,抑制了M059K和M059J細胞的細胞活力達70%。兩種細胞系的半數最大抑制濃度(IC50)約為30 - 35 nM。由於在30 nM YM155處理24小時後細胞質中DNA片段的免疫反應信號增加,因此確定兩種細胞系均發生了凋亡。M059K細胞中存活素和分離酶的表達高於M059J細胞。在兩種細胞系中,30 nM YM155處理24小時和48小時均顯著抑制了存活素和分離酶的表達。
新型存活素抑制劑YM155是否會在具有正常或缺乏DNA依賴性蛋白激酶活性的膠質母細胞瘤細胞系中引發細胞毒性?
A. 可能
B. 是
C. 否
- 開放式問題的輸入示例:
醫生你好,我叫Chaitanya,28歲,來自海得拉巴。我的問題是……我在第一次懷孕時得了甲狀腺疾病。我的預產期是2009年7月24日,但在7月6日凌晨7點左右突然大量出血,我趕緊去了醫院,但他們沒能保住孩子(男孩)……我失去了第一個孩子。6個月後我再次懷孕,但醫生說孩子有一些心臟問題,問題的嚴重程度要等孩子出生後才能知道,我應該進行計劃分娩。醫生在2010年10月21日進行了剖腹產。醫生說孩子的問題不是很嚴重,但這是一個心臟問題,所以我們需要觀察7天。第5天孩子去世了。我想知道是不是我有什麼問題才會發生這樣的事情……我在計劃下次懷孕前需要做什麼檢查嗎?到目前為止我已經做了兩次剖腹產。我下次懷孕的機會有多大?我需要等多久才能計劃下次懷孕?
研究主要用於脂質調節的他汀類藥物對免疫調節途徑的機制影響,重點在於闡明它們在管理心血管疾病患者臨床結局方面的治療作用,包括討論對動脈粥樣硬化疾病進展的影響。
高級用法
使用vLLM進行推理的代碼示例:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
llm = LLM(model="TsinghuaC3I/Llama-3-8B-UltraMedical", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("TsinghuaC3I/Llama-3-8B-UltraMedical")
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=1024, stop=["<|eot_id|>"])
messages = [
{"role": "user", "content": """上述輸入示例中使用的問題格式。"""},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(prompts[0])
"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{question}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""
outputs = llm.generate(prompts=prompts, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
⚠️ 重要提示
此版本的模型僅支持單輪對話,在多輪對話方面的能力有限。我們計劃在下一次更新中改進這一點。
評估結果
Llama-3-8B-UltraMedical在多個流行的醫學基準測試(包括MedQA、MedMCQA、PubMedQA和MMLU-Medical)中,在7B級模型中取得了最佳平均成績。以下是詳細的評估結果:
發佈日期 | 模型 | 平均分 | MedQA | MedMCQA | PubMedQA | MMLU.CK | MMLU.MG | MMLU.An | MMLU.PM | MMLU.CB | MMLU.CM |
---|---|---|---|---|---|---|---|---|---|---|---|
2024.04 | Llama-3-8B-UltraMedical (Ensemble) | 77.77 | 77.5 | 63.8 | 78.2 | 77.4 | 88.0 | 74.8 | 84.6 | 79.9 | 75.7 |
2024.04 | Llama-3-8B-UltraMedical (Greedy) | 75.20 | 73.3 | 61.5 | 77.0 | 78.9 | 78.0 | 74.1 | 83.8 | 78.5 | 71.7 |
2024.04 | OpenBioLM-8B | 72.48 | 59.0 | 56.9 | 74.1 | 76.1 | 86.1 | 69.8 | 78.2 | 84.2 | 68.0 |
2024.04 | Llama-3-8B-Instruct (Ensemble) | 71.23 | 62.4 | 56.5 | 75.8 | 72.5 | 84.0 | 71.1 | 70.6 | 80.6 | 67.6 |
2024.04 | Llama-3-8B-Instruct (Greedy) | 68.56 | 60.9 | 50.7 | 73.0 | 72.1 | 76.0 | 63.0 | 77.2 | 79.9 | 64.2 |
2024.04 | Internist-7B | 67.79 | 60.5 | 55.8 | 79.4 | 70.6 | 71.0 | 65.9 | 76.1 | - | 63.0 |
2024.02 | Gemma-7B | 64.18 | 47.2 | 49.0 | 76.2 | 69.8 | 70.0 | 59.3 | 66.2 | 79.9 | 60.1 |
2024.03 | Meerkat-7B (Ensemble) | 63.94 | 74.3 | 60.7 | - | 61.9 | 70.4 | 61.5 | 69.5 | 55.4 | 57.8 |
2023.03 | MedAlpaca | 58.03 | 41.7 | 37.5 | 72.8 | 57.4 | 69.0 | 57.0 | 67.3 | 65.3 | 54.3 |
2024.02 | BioMistral-7B | 57.26 | 46.6 | 45.7 | 68.1 | 63.1 | 63.3 | 49.9 | 57.4 | 63.4 | 57.8 |
表中說明:
- 對於MedQA,我們使用美國數據集的4個選項;對於MedMCQA,我們使用開發集;對於PubMedQA,我們使用需要推理的數據集。
- 對於MMLU,我們包括臨床知識(CK)、醫學遺傳學(MG)、解剖學(An)、專業醫學(PM)、大學生物學(CB)和大學醫學(CM),以與先前的研究保持一致。
- 貪婪搜索是我們默認的解碼策略。我們用
(Ensemble)
表示具有自一致性的集成分數。在我們的實驗中,我們進行10次解碼試驗,並通過多數投票做出最終決策(溫度=0.7,top_p=0.9)。 - 7B預訓練模型的部分結果來自開放醫學大語言模型排行榜。
訓練細節
該模型使用全參數和完全分片數據並行(FSDP)框架進行訓練。訓練過程在8個A6000 GPU上進行了約50小時。 超參數設置如下:
- torch類型:bfloat16
- 訓練輪數:3
- 學習率:2e-5
- 學習率調度器類型:餘弦
- 熱身比例:0.04
- 最大長度:1024
- 全局批量大小:128
侷限性與安全使用
雖然我們的模型具有良好的性能,但由於可能存在幻覺問題,在實際臨床環境中使用時必須謹慎。幻覺是指模型生成不正確或誤導性信息的情況,這可能會在臨床決策中帶來重大風險。建議用戶使用可信的醫學來源和專家諮詢來驗證模型的輸出,以確保安全性和準確性。
引用
如果您使用了該模型,請引用以下文獻:
@misc{UltraMedical,
author = {Zhang, Kaiyan and Ding, Ning and Qi, Biqing and Zeng, Sihang and Li, Haoxin and Zhu, Xuekai and Chen, Zhang-Ren and Zhou, Bowen},
title = {UltraMedical: Building Specialized Generalists in Biomedicine.},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/TsinghuaC3I/UltraMedical}},
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98