BioM-ALBERT-xxlarge-PMC开源生物医学模型 - 助力多项生物医学任务取得先进成果

首页

Biom ALBERT Xxlarge PMC

由 sultan 开发

基于BERT、ALBERT和ELECTRA构建的大型生物医学语言模型，在多项生物医学任务中取得最先进成果

大型语言模型

Transformers

#生物医学预训练 #大模型微调 #TPU高效训练

下载量 189

发布时间 : 3/2/2022

模型简介

BioM-Transformers是一个针对生物医学领域优化的Transformer模型系列，通过不同架构选择在生物医学文本处理任务中展现卓越性能。模型在PMC全文数据上进行预训练，支持多种生物医学NLP任务。

模型特点

多架构支持

同时提供基于BERT、ALBERT和ELECTRA的不同架构变体，满足不同应用场景需求

高效TPU支持

提供PyTorch XLA和JAX/Flax实现，可利用Google Colab和Kaggle的免费TPU资源进行微调

生物医学领域优化

在PMC全文数据上进行额外64k步预训练，专门针对生物医学文本特性优化

计算效率

在相当或更低计算成本下取得优于同类模型的性能表现

模型能力

生物医学文本分类

生物医学命名实体识别

生物医学问答系统

生物医学关系抽取

使用案例

生物医学文献处理

ChemProt关系分类

化学-蛋白质相互作用分类任务

微平均F1分数80.74（5个epoch微调耗时43分钟）

BioASQ生物医学问答

回答生物医学领域事实型问题

临床文本分析

临床命名实体识别

识别临床文本中的医学实体

🚀 BioM-Transformers：使用BERT、ALBERT和ELECTRA构建大型生物医学语言模型

BioM-Transformers旨在利用不同设计选择，借助大型Transformer模型进行生物医学领域适配研究。通过与现有生物医学语言模型对比评估，该项目在多个生物医学领域任务中取得了卓越成果，同时展现了设计选择对提升模型性能的显著影响。

🚀 快速开始

你可以通过以下方式快速开始使用BioM-Transformers：

查看GitHub仓库：访问BioM-Transformers GitHub仓库获取TensorFlow和GluonNLP检查点。
参考示例：仓库中提供了多个示例，展示了如何在文本分类和问答任务（如ChemProt、SQuAD和BioASQ）上微调语言模型。

✨ 主要特性

高性能：在多个生物医学领域任务中取得了最先进的结果，且计算成本与其他模型相当或更低。
资源支持：为资源有限的研究人员提供了使用PyTorch XLA在TPU上微调模型的示例，可免费使用Google Colab和Kaggle提供的TPU资源。
丰富示例：仓库中包含多个Colab Notebook示例，涵盖命名实体识别（NER）、文本分类、问答等任务。

📦 安装指南

文档未提及具体安装步骤，可参考GitHub仓库中的相关说明进行安装。

💻 使用示例

基础用法

可参考以下Colab Notebook示例进行基础使用：

高级用法

使用PyTorch XLA在免费TPU上进行文本分类任务的微调：在免费TPU上使用HuggingFace Transformers和PyTorch XLA进行生物医学模型的微调在该示例中，使用BioM-ALBERTxxlarge在ChemProt任务上实现了80.74的微F1分数，5个epoch的微调时间为43分钟。

📚 详细文档

模型描述

该模型在PMC全文文章上进行了额外64k步的预训练，批量大小为8192，权重初始化自BioM-ALBERT-xxlarge模型。因此，该模型的总训练步数为264k + 64k = 328k步。由于隐藏层大小为4096，模型规模非常大。

为帮助资源有限的研究人员微调更大的模型，项目提供了一个使用PyTorch XLA的示例。PyTorch XLA（https://github.com/pytorch/xla）是一个允许在TPU单元上使用PyTorch的库，Google Colab和Kaggle免费提供TPU资源。可参考此示例进行PyTorch/XLA的使用。

Colab Notebook示例

🔧 技术细节

该项目通过实证研究，使用不同设计选择的大型Transformer模型进行生物医学领域适配。评估了预训练模型相对于文献中其他现有生物医学语言模型的性能，结果表明在多个生物医学领域任务中取得了最先进的结果，同时强调了设计选择对提高生物医学语言模型性能的显著影响。

📄 许可证

文档未提及许可证信息。

🙏 致谢

感谢Tensorflow Research Cloud (TFRC)团队为我们提供TPUv3单元的访问权限。

📖 引用

@inproceedings{alrowili-shanker-2021-biom,
title = "{B}io{M}-Transformers: Building Large Biomedical Language Models with {BERT}, {ALBERT} and {ELECTRA}",
author = "Alrowili, Sultan and
Shanker, Vijay",
booktitle = "Proceedings of the 20th Workshop on Biomedical Language Processing",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bionlp-1.24",
pages = "221--227",
abstract = "The impact of design choices on the performance of biomedical language models recently has been a subject for investigation. In this paper, we empirically study biomedical domain adaptation with large transformer models using different design choices. We evaluate the performance of our pretrained models against other existing biomedical language models in the literature. Our results show that we achieve state-of-the-art results on several biomedical domain tasks despite using similar or less computational cost compared to other models in the literature. Our findings highlight the significant effect of design choices on improving the performance of biomedical language models.",
}