🚀 BioMedLM 2.7B 模型介绍
BioMedLM 2.7B 是一个专门基于生物医学摘要和论文训练的语言模型。它在多种生物医学 NLP 任务中表现出色,如在 MedQA 生物医学问答任务中达到了 50.3% 的准确率。该模型由斯坦福 CRFM 和 MosaicML 联合开发,旨在推动生物医学 NLP 应用的发展以及负责任地训练和利用特定领域语言模型的最佳实践。
📚 详细文档
模型详情
BioMedLM 2.7B 是专门针对来自 The Pile 的生物医学摘要和论文进行训练的新型语言模型。这种类 GPT 模型在多种生物医学 NLP 任务中能取得出色的效果,例如在 MedQA 生物医学问答任务中达到了 50.3% 的准确率,创造了新的行业水平。
作为自回归语言模型,BioMedLM 2.7B 也具备自然语言生成能力。不过,我们才刚刚开始探索该模型的生成能力和局限性,并且强调该模型的生成能力仅用于研究目的,不适合用于生产环境。发布此模型,我们希望推动生物医学 NLP 应用的发展,以及负责任地训练和利用特定领域语言模型的最佳实践;可靠性、真实性和可解释性是我们首要关注的问题。
该模型由 斯坦福 CRFM 和 MosaicML 联合开发。
模型使用
此模型遵循用于 [BLOOM](https://huggingface.co/bigscience/bloom - 1b1) 的 BigScience Open RAIL - M 许可证 的条款。请注意,除其他限制外,此许可证禁止将模型(或其衍生产品)用于“提供医疗建议和医学结果解释”。如果您担心您的使用场景符合此限制的“字面意思”,但不符合其“精神”,可以联系我们进行讨论。
直接使用
可以使用该模型生成文本,这有助于实验和了解其能力。但不应直接将其用于生产或可能直接影响人们的工作。
下游使用
我们使用该模型的主要方式是针对下游问答任务进行微调,我们建议以这种方式使用该模型。
超出适用范围的使用
我们不建议在生产环境中使用该模型进行自然语言生成,无论是否经过微调。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 [Sheng 等人 (2021)](https://aclanthology.org/2021.acl - long.330.pdf))。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
虽然该模型能够生成自然语言文本,但我们才刚刚开始探索这种能力及其局限性。在医学这样的领域,了解这些局限性尤为重要。因此,我们强烈建议不要在生产环境中使用该模型进行自然语言生成。
训练详情
训练数据
该模型基于 The Pile 中的 Pubmed 摘要和全文进行训练。
训练过程
该模型在 MosaicML Cloud 上进行训练,这是一个专为像大语言模型这样的大型工作负载设计的平台。使用 Composer 训练库和 PyTorch FSDP,可以轻松地在 128 个 A100 - 40GB GPU 上实现多节点训练,整个训练过程大约在 6.25 天内完成。模型以批量大小为 1024、序列长度为 1024 对 300B 个标记进行训练,使用解耦 AdamW 优化器,设置如下:
参数 |
值 |
lr |
1.6e - 4 |
eps |
1e - 8 |
betas |
[0.9, 0.95] |
weight decay |
1.6e - 5 |
训练过程非常顺利,没有出现任何发散问题。
在准备训练时,我们不确定将语言模型训练到 300B 个标记对语言模型困惑度和下游任务性能的好处。虽然大多数这种规模的模型(例如 GPT Neo 2.7B)训练到 300 - 400B 个标记,但这些模型使用的数据集比 PubMed 大得多。例如,The Pile 的大小是其 PubMed 子语料库的 8 倍。
幸运的是,在整个训练过程中,我们确实看到验证集和训练集的困惑度持续改善,初步实验表明,当训练到完整的 300B 个标记时,下游任务的性能有所提高。我们的结论是,即使这意味着比同类模型对数据进行更多次的遍历,但将模型训练到完整的 300B 个标记确实是值得的。
预处理
该模型使用在 PubMed 摘要上训练的自定义分词器。在构建特定领域的模型时,我们发现使用在领域内文本上训练的分词器对于最大化下游任务的性能非常重要。一个关键好处是常见的生物医学术语被表示为完整的标记。
例如,以下术语由生物医学分词器分词为单个标记,而由标准 GPT - 2 分词器分词为多个标记:
术语 |
标准 GPT - 2 分词结果 |
chromatography |
chrom/atography |
cytotoxicity |
cyt/ot/oxicity |
Immunohistochemistry |
Immun/oh/ist/ochemistry |
photosynthesis |
photos/ynthesis |
probiotic |
prob/iotic |
这使得模型能够在单个标记表示中编码有关这些概念的信息,而不是像“oh”这样与许多其他术语共享的子词标记那样分散开来。
技术规格
模型架构和目标
BioMedLM 2.7B 是标准的 GPT - 2 实现(使用 Flash Attention 进行训练),具有以下超参数:
参数 |
值 |
hidden size |
2560 |
heads |
20 |
layers |
32 |
vocab size |
28896 |
sequence length |
1024 |
计算基础设施
该模型在 MosaicML Cloud 上进行训练,这是一个专为像大语言模型这样的大型工作负载设计的平台。使用 Composer 训练库和 PyTorch FSDP,可以轻松地在 128 个 A100 - 40GB GPU 上实现多节点训练,整个训练过程大约在 6.25 天内完成。
许可证
本模型使用 bigscience - bloom - rail - 1.0 许可证。