🚀 MMedLM
MMedLM是“Towards Building Multilingual Language Model for Medicine”論文的官方模型權重,旨在構建醫學領域的多語言語言模型,為醫學研究和應用提供支持。
🚀 快速開始
本倉庫包含MMed - Llama 3,這是一個擁有80億參數的多語言醫學基礎模型。MMed - Llama 3基於Llama 3構建,並在MMedC(一個全面的多語言醫學語料庫)上進行了進一步的預訓練,從而增強了模型在醫學領域的知識。
模型在MMedC上進行進一步預訓練時使用了以下超參數:
- 迭代次數:15000
- 全局批次大小:512
- 截斷長度:8192
- 學習率:2e - 5
可以按以下方式加載模型:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Henrychur/MMed-Llama-3-8B")
model = AutoModelForCausalLM.from_pretrained("Henrychur/MMed-Llama-3-8B", torch_dtype=torch.float16)
⚠️ 重要提示
請注意,這是一個未經指令微調的基礎模型。
✨ 主要特性
多語言支持
支持英文、中文、日文、法文、俄文和西班牙文等多種語言,適用於不同語言背景的醫學應用。
醫學領域知識增強
基於Llama 3,在多語言醫學語料庫MMedC上進一步預訓練,增強了模型在醫學領域的知識。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Henrychur/MMed-Llama-3-8B")
model = AutoModelForCausalLM.from_pretrained("Henrychur/MMed-Llama-3-8B", torch_dtype=torch.float16)
📚 詳細文檔
新聞動態
- [2024.2.21] 預印本論文已發佈在ArXiv上,點擊此處查看詳情。
- [2024.2.20] 發佈了MMedLM和MMedLM 2。這些模型在MMedC上進行自迴歸持續訓練,與所有其他開源模型相比表現更優,在MMedBench上甚至可與GPT - 4相媲美。
- [2023.2.20] 發佈了MMedC,這是一個包含255億個標記的多語言醫學語料庫。
- [2023.2.20] 發佈了MMedBench,這是一個新的多語言醫學多項選擇題問答基準,並帶有推理過程。點擊此處查看排行榜。
MMedBench評估結果
進一步預訓練的MMedLM 2在不同語言的醫學領域中展現出了出色的性能。
方法 |
規模 |
年份 |
MMedC |
MMedBench |
英文 |
中文 |
日文 |
法文 |
俄文 |
西班牙文 |
平均 |
GPT - 3.5 |
- |
2022.12 |
❌ |
❌ |
56.88 |
52.29 |
34.63 |
32.48 |
66.36 |
66.06 |
51.47 |
GPT - 4 |
- |
2023.3 |
❌ |
❌ |
78.00 |
75.07 |
72.91 |
56.59 |
83.62 |
85.67 |
74.27 |
Gemini - 1.0 pro |
- |
2024.1 |
❌ |
❌ |
53.73 |
60.19 |
44.22 |
29.90 |
73.44 |
69.69 |
55.20 |
BLOOMZ |
7B |
2023.5 |
❌ |
訓練集 |
43.28 |
58.06 |
32.66 |
26.37 |
62.89 |
47.34 |
45.10 |
InternLM |
7B |
2023.7 |
❌ |
訓練集 |
44.07 |
64.62 |
37.19 |
24.92 |
58.20 |
44.97 |
45.67 |
Llama 2 |
7B |
2023.7 |
❌ |
訓練集 |
43.36 |
50.29 |
25.13 |
20.90 |
66.80 |
47.10 |
42.26 |
MedAlpaca |
7B |
2023.3 |
❌ |
訓練集 |
46.74 |
44.80 |
29.64 |
21.06 |
59.38 |
45.00 |
41.11 |
ChatDoctor |
7B |
2023.4 |
❌ |
訓練集 |
43.52 |
43.26 |
25.63 |
18.81 |
62.50 |
43.44 |
39.53 |
PMC - LLaMA |
7B |
2023.4 |
❌ |
訓練集 |
47.53 |
42.44 |
24.12 |
20.74 |
62.11 |
43.29 |
40.04 |
Mistral |
7B |
2023.10 |
❌ |
訓練集 |
61.74 |
71.10 |
44.72 |
48.71 |
74.22 |
63.86 |
60.73 |
InternLM 2 |
7B |
2024.2 |
❌ |
訓練集 |
57.27 |
77.55 |
47.74 |
41.00 |
68.36 |
59.59 |
58.59 |
MMedLM(我們的模型) |
7B |
- |
✅ |
訓練集 |
49.88 |
70.49 |
46.23 |
36.66 |
72.27 |
54.52 |
55.01 |
MMedLM 2(我們的模型) |
7B |
- |
✅ |
訓練集 |
61.74 |
80.01 |
61.81 |
52.09 |
80.47 |
67.65 |
67.30 |
MMed - Llama 3(我們的模型) |
8B |
- |
✅ |
訓練集 |
66.06 |
79.25 |
61.81 |
55.63 |
75.39 |
68.38 |
67.75 |
- GPT和Gemini通過API在零樣本設置下進行評估。
- 開源模型先在MMedBench的訓練集上進行訓練,然後再進行評估。
聯繫信息
如果您有任何問題,請隨時聯繫qiupengcheng@pjlab.org.cn。
引用信息
@misc{qiu2024building,
title={Towards Building Multilingual Language Model for Medicine},
author={Pengcheng Qiu and Chaoyi Wu and Xiaoman Zhang and Weixiong Lin and Haicheng Wang and Ya Zhang and Yanfeng Wang and Weidi Xie},
year={2024},
eprint={2402.13963},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目使用Llama 3許可證。