🚀 BioMistral-7B-slerp
BioMistral-7B-slerp 是一个使用 mergekit 合并预训练语言模型得到的模型。它结合了多个优秀模型的特性,在医疗和生物领域具有潜在的应用价值。
🚀 快速开始
你可以使用 Hugging Face 的 Transformers 库 来使用 BioMistral,以下是加载模型和分词器的示例代码:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("BioMistral/BioMistral-7B")
model = AutoModel.from_pretrained("BioMistral/BioMistral-7B")
✨ 主要特性
模型合并特性
多语言支持
支持法语(fr)、英语(en)、西班牙语(es)、意大利语(it)、波兰语(pl)、荷兰语(nl)和德语(de)等多种语言。
多领域应用
适用于医疗和生物领域,在医学问答等任务上表现出色。
📚 详细文档
合并详情
合并方法
该模型采用 SLERP 合并方法进行合并。
合并的模型
以下模型参与了合并:
配置
以下 YAML 配置用于生成此模型:
slices:
- sources:
- model: mistralai/Mistral-7B-Instruct-v0.1
layer_range: [0, 32]
- model: BioMistral/BioMistral-7B
layer_range: [0, 32]
merge_method: slerp
base_model: mistralai/Mistral-7B-Instruct-v0.1
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
BioMistral 模型
BioMistral 是一套基于 Mistral 进一步预训练的开源模型,适用于医疗领域,使用来自 PubMed Central Open Access(CC0、CC BY、CC BY - SA 和 CC BY - ND)的文本数据进行预训练。所有模型均使用法国国家科学研究中心(CNRS)的 Jean Zay 法国高性能计算机进行训练。
量化模型
基础模型 |
方法 |
q_group_size |
w_bit |
版本 |
VRAM GB |
时间 |
下载地址 |
BioMistral - 7B |
FP16/BF16 |
|
|
|
15.02 |
x1.00 |
HuggingFace |
BioMistral - 7B |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B |
AWQ |
128 |
4 |
GEMV |
4.68 |
x10.30 |
HuggingFace |
BioMistral - 7B |
BnB.4 |
|
4 |
|
5.03 |
x3.25 |
HuggingFace |
BioMistral - 7B |
BnB.8 |
|
8 |
|
8.04 |
x4.34 |
HuggingFace |
BioMistral - 7B - DARE |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B - TIES |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B - SLERP |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
监督微调基准测试
|
临床知识图谱 |
医学遗传学 |
解剖学 |
专业医学 |
大学生物学 |
大学医学 |
MedQA |
MedQA 5 选项 |
PubMedQA |
MedMCQA |
平均值 |
BioMistral 7B |
59.9 |
64.0 |
56.5 |
60.4 |
59.0 |
54.7 |
50.6 |
42.8 |
77.5 |
48.1 |
57.3 |
Mistral 7B Instruct |
62.9 |
57.0 |
55.6 |
59.4 |
62.5 |
57.2 |
42.0 |
40.9 |
75.7 |
46.1 |
55.9 |
|
|
|
|
|
|
|
|
|
|
|
|
BioMistral 7B 集成 |
62.8 |
62.7 |
57.5 |
63.5 |
64.3 |
55.7 |
50.6 |
43.6 |
77.5 |
48.8 |
58.7 |
BioMistral 7B DARE |
62.3 |
67.0 |
55.8 |
61.4 |
66.9 |
58.0 |
51.1 |
45.2 |
77.7 |
48.7 |
59.4 |
BioMistral 7B TIES |
60.1 |
65.0 |
58.5 |
60.5 |
60.4 |
56.5 |
49.5 |
43.2 |
77.5 |
48.1 |
57.9 |
BioMistral 7B SLERP |
62.5 |
64.7 |
55.8 |
62.7 |
64.8 |
56.3 |
50.8 |
44.3 |
77.8 |
48.6 |
58.8 |
|
|
|
|
|
|
|
|
|
|
|
|
MedAlpaca 7B |
53.1 |
58.0 |
54.1 |
58.8 |
58.1 |
48.6 |
40.1 |
33.7 |
73.6 |
37.0 |
51.5 |
PMC - LLaMA 7B |
24.5 |
27.7 |
35.3 |
17.4 |
30.3 |
23.3 |
25.5 |
20.2 |
72.9 |
26.6 |
30.4 |
MediTron - 7B |
41.6 |
50.3 |
46.4 |
27.9 |
44.4 |
30.8 |
41.6 |
28.1 |
74.9 |
41.3 |
42.7 |
BioMedGPT - LM - 7B |
51.4 |
52.0 |
49.4 |
53.3 |
50.7 |
49.1 |
42.5 |
33.9 |
76.8 |
37.6 |
49.7 |
|
|
|
|
|
|
|
|
|
|
|
|
GPT - 3.5 Turbo 1106* |
74.71 |
74.00 |
65.92 |
72.79 |
72.91 |
64.73 |
57.71 |
50.82 |
72.66 |
53.79 |
66.0 |
BioMistral 7B 模型与基线模型的监督微调(SFT)性能对比,通过准确率(↑)衡量,并在 3 次随机种子的 3 - shot 实验中取平均值。DARE、TIES 和 SLERP 是合并 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。最佳模型用粗体表示,第二佳模型用下划线表示。*GPT - 3.5 Turbo 的性能是在未进行 SFT 的 3 - shot 结果中报告的。
引用信息
Arxiv 链接:https://arxiv.org/abs/2402.10373
@misc{labrak2024biomistral,
title={BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains},
author={Yanis Labrak and Adrien Bazoge and Emmanuel Morin and Pierre-Antoine Gourraud and Mickael Rouvier and Richard Dufour},
year={2024},
eprint={2402.10373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技术细节
BioMistral 是一个为生物医学领域量身定制的开源大语言模型,以 Mistral 为基础模型,并在 PubMed Central 上进行了进一步预训练。该研究对 BioMistral 在包含 10 个已建立的英语医学问答(QA)任务的基准测试中进行了全面评估,还探索了通过量化和模型合并方法获得的轻量级模型。研究结果表明,BioMistral 与现有的开源医学模型相比具有更优越的性能,并且与专有模型相比也具有竞争力。此外,为了解决英语以外数据有限的问题,并评估医学大语言模型的多语言泛化能力,研究团队自动将该基准测试翻译成 7 种其他语言并进行了评估,这标志着医学领域大语言模型的首次大规模多语言评估。
📄 许可证
本项目采用 Apache - 2.0 许可证。
⚠️ 重要提示
- 尽管 BioMistral 旨在封装来自高质量证据的医学知识,但它尚未针对在专业行动参数内有效、安全或适当地传达这些知识进行定制。建议在 BioMistral 与特定用例进行全面对齐并经过进一步测试(特别是包括在现实世界医疗环境中的随机对照试验)之前,不要在医疗环境中使用它。
- BioMistral 7B 可能存在尚未彻底评估的固有风险和偏差。此外,该模型的性能尚未在现实世界的临床环境中进行评估。因此,建议仅将 BioMistral 7B 用作研究工具,并避免将其部署在生产环境中用于自然语言生成或任何专业健康和医疗目的。
- 直接和下游用户都需要了解模型固有的风险、偏差和限制。虽然该模型可以生成自然语言文本,但对其能力和限制的探索才刚刚开始。在医学等领域,理解这些限制至关重要。因此,强烈建议不要将此模型用于生产环境中的自然语言生成或健康和医学领域的专业任务。