🚀 BioMistral-7B-mistral7instruct-dare
這是一個使用 mergekit 合併預訓練語言模型而得到的模型。它結合了多個模型的優勢,為醫學領域的自然語言處理任務提供了更強大的支持。
🚀 快速開始
你可以使用 Hugging Face 的 Transformers 庫 來使用 BioMistral,以下是加載模型和分詞器的示例代碼:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("BioMistral/BioMistral-7B")
model = AutoModel.from_pretrained("BioMistral/BioMistral-7B")
✨ 主要特性
模型合併特性
models:
- model: mistralai/Mistral-7B-Instruct-v0.1
- model: BioMistral/BioMistral-7B
parameters:
density: 0.5
weight: 0.5
merge_method: dare_ties
base_model: mistralai/Mistral-7B-Instruct-v0.1
parameters:
int8_mask: true
dtype: bfloat16
模型適用領域
BioMistral 是一套基於 Mistral 的進一步預訓練的開源模型,適用於醫學領域,使用來自 PubMed Central Open Access(CC0、CC BY、CC BY - SA 和 CC BY - ND)的文本數據進行預訓練。
多語言支持
支持英語(en)、法語(fr)、荷蘭語(nl)、西班牙語(es)、意大利語(it)、波蘭語(pl)、羅馬尼亞語(ro)和德語(de)等多種語言。
📦 模型信息
BioMistral 模型
量化模型
基礎模型 |
方法 |
q_group_size |
w_bit |
版本 |
VRAM GB |
時間 |
下載地址 |
BioMistral - 7B |
FP16/BF16 |
|
|
|
15.02 |
x1.00 |
HuggingFace |
BioMistral - 7B |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B |
AWQ |
128 |
4 |
GEMV |
4.68 |
x10.30 |
HuggingFace |
BioMistral - 7B |
BnB.4 |
|
4 |
|
5.03 |
x3.25 |
HuggingFace |
BioMistral - 7B |
BnB.8 |
|
8 |
|
8.04 |
x4.34 |
HuggingFace |
BioMistral - 7B - DARE |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B - TIES |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
BioMistral - 7B - SLERP |
AWQ |
128 |
4 |
GEMM |
4.68 |
x1.41 |
HuggingFace |
📚 詳細文檔
監督微調基準測試
|
臨床知識圖譜 |
醫學遺傳學 |
解剖學 |
專業醫學 |
大學生物學 |
大學醫學 |
MedQA |
MedQA 5 選項 |
PubMedQA |
MedMCQA |
平均 |
BioMistral 7B |
59.9 |
64.0 |
56.5 |
60.4 |
59.0 |
54.7 |
50.6 |
42.8 |
77.5 |
48.1 |
57.3 |
Mistral 7B Instruct |
62.9 |
57.0 |
55.6 |
59.4 |
62.5 |
57.2 |
42.0 |
40.9 |
75.7 |
46.1 |
55.9 |
|
|
|
|
|
|
|
|
|
|
|
|
BioMistral 7B 集成 |
62.8 |
62.7 |
57.5 |
63.5 |
64.3 |
55.7 |
50.6 |
43.6 |
77.5 |
48.8 |
58.7 |
BioMistral 7B DARE |
62.3 |
67.0 |
55.8 |
61.4 |
66.9 |
58.0 |
51.1 |
45.2 |
77.7 |
48.7 |
59.4 |
BioMistral 7B TIES |
60.1 |
65.0 |
58.5 |
60.5 |
60.4 |
56.5 |
49.5 |
43.2 |
77.5 |
48.1 |
57.9 |
BioMistral 7B SLERP |
62.5 |
64.7 |
55.8 |
62.7 |
64.8 |
56.3 |
50.8 |
44.3 |
77.8 |
48.6 |
58.8 |
|
|
|
|
|
|
|
|
|
|
|
|
MedAlpaca 7B |
53.1 |
58.0 |
54.1 |
58.8 |
58.1 |
48.6 |
40.1 |
33.7 |
73.6 |
37.0 |
51.5 |
PMC - LLaMA 7B |
24.5 |
27.7 |
35.3 |
17.4 |
30.3 |
23.3 |
25.5 |
20.2 |
72.9 |
26.6 |
30.4 |
MediTron - 7B |
41.6 |
50.3 |
46.4 |
27.9 |
44.4 |
30.8 |
41.6 |
28.1 |
74.9 |
41.3 |
42.7 |
BioMedGPT - LM - 7B |
51.4 |
52.0 |
49.4 |
53.3 |
50.7 |
49.1 |
42.5 |
33.9 |
76.8 |
37.6 |
49.7 |
|
|
|
|
|
|
|
|
|
|
|
|
GPT - 3.5 Turbo 1106* |
74.71 |
74.00 |
65.92 |
72.79 |
72.91 |
64.73 |
57.71 |
50.82 |
72.66 |
53.79 |
66.0 |
BioMistral 7B 模型與基線模型的監督微調(SFT)性能對比,通過準確率(↑)衡量,並在 3 次隨機種子的 3 - 次射擊中取平均值。DARE、TIES 和 SLERP 是合併 BioMistral 7B 和 Mistral 7B Instruct 的模型合併策略。最佳模型用粗體表示,第二佳模型用下劃線表示。*GPT - 3.5 Turbo 的性能報告來自未進行 SFT 的 3 - 次射擊結果。
論文引用
Arxiv : https://arxiv.org/abs/2402.10373
@misc{labrak2024biomistral,
title={BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains},
author={Yanis Labrak and Adrien Bazoge and Emmanuel Morin and Pierre-Antoine Gourraud and Mickael Rouvier and Richard Dufour},
year={2024},
eprint={2402.10373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技術細節
BioMistral 是一個基於 Mistral 的進一步預訓練的開源模型套件,適用於醫學領域。所有模型均使用法國國家科學研究中心(CNRS)的 Jean Zay 法國高性能計算機進行訓練,使用來自 PubMed Central Open Access 的文本數據。
📄 許可證
本項目採用 apache - 2.0 許可證。
⚠️ 重要提示
- 儘管 BioMistral 旨在封裝來自高質量證據的醫學知識,但它尚未針對在專業行動參數內有效、安全或適當地傳達這些知識進行優化。除非經過與特定用例的徹底對齊和進一步測試,特別是包括在現實世界醫療環境中的隨機對照試驗,否則建議不要在醫療環境中使用 BioMistral。
- BioMistral 7B 可能存在尚未徹底評估的固有風險和偏差。此外,該模型的性能尚未在現實世界的臨床環境中進行評估。因此,建議僅將 BioMistral 7B 用作研究工具,不建議將其部署在生產環境中用於自然語言生成或任何專業健康和醫療目的。
- 直接和下游用戶都需要了解模型固有的風險、偏差和限制。雖然該模型可以生成自然語言文本,但對其能力和限制的探索才剛剛開始。在醫學等領域,理解這些限制至關重要。因此,強烈建議不要將此模型用於生產環境中的自然語言生成或健康和醫學領域的專業任務。