BioM-ALBERT-xxlarge-PMC開源生物醫學模型 - 助力多項生物醫學任務取得先進成果

首頁

Biom ALBERT Xxlarge PMC

由sultan開發

基於BERT、ALBERT和ELECTRA構建的大型生物醫學語言模型，在多項生物醫學任務中取得最先進成果

大型語言模型

Transformers

#生物醫學預訓練 #大模型微調 #TPU高效訓練

下載量 189

發布時間 : 3/2/2022

模型概述

BioM-Transformers是一個針對生物醫學領域優化的Transformer模型系列，通過不同架構選擇在生物醫學文本處理任務中展現卓越性能。模型在PMC全文數據上進行預訓練，支持多種生物醫學NLP任務。

模型特點

多架構支持

同時提供基於BERT、ALBERT和ELECTRA的不同架構變體，滿足不同應用場景需求

高效TPU支持

提供PyTorch XLA和JAX/Flax實現，可利用Google Colab和Kaggle的免費TPU資源進行微調

生物醫學領域優化

在PMC全文數據上進行額外64k步預訓練，專門針對生物醫學文本特性優化

計算效率

在相當或更低計算成本下取得優於同類模型的性能表現

模型能力

生物醫學文本分類

生物醫學命名實體識別

生物醫學問答系統

生物醫學關係抽取

使用案例

生物醫學文獻處理

ChemProt關係分類

化學-蛋白質相互作用分類任務

微平均F1分數80.74（5個epoch微調耗時43分鐘）

BioASQ生物醫學問答

回答生物醫學領域事實型問題

臨床文本分析

臨床命名實體識別

識別臨床文本中的醫學實體

🚀 BioM-Transformers：使用BERT、ALBERT和ELECTRA構建大型生物醫學語言模型

BioM-Transformers旨在利用不同設計選擇，藉助大型Transformer模型進行生物醫學領域適配研究。通過與現有生物醫學語言模型對比評估，該項目在多個生物醫學領域任務中取得了卓越成果，同時展現了設計選擇對提升模型性能的顯著影響。

🚀 快速開始

你可以通過以下方式快速開始使用BioM-Transformers：

查看GitHub倉庫：訪問BioM-Transformers GitHub倉庫獲取TensorFlow和GluonNLP檢查點。
參考示例：倉庫中提供了多個示例，展示瞭如何在文本分類和問答任務（如ChemProt、SQuAD和BioASQ）上微調語言模型。

✨ 主要特性

高性能：在多個生物醫學領域任務中取得了最先進的結果，且計算成本與其他模型相當或更低。
資源支持：為資源有限的研究人員提供了使用PyTorch XLA在TPU上微調模型的示例，可免費使用Google Colab和Kaggle提供的TPU資源。
豐富示例：倉庫中包含多個Colab Notebook示例，涵蓋命名實體識別（NER）、文本分類、問答等任務。

📦 安裝指南

文檔未提及具體安裝步驟，可參考GitHub倉庫中的相關說明進行安裝。

💻 使用示例

基礎用法

可參考以下Colab Notebook示例進行基礎使用：

高級用法

使用PyTorch XLA在免費TPU上進行文本分類任務的微調：在免費TPU上使用HuggingFace Transformers和PyTorch XLA進行生物醫學模型的微調在該示例中，使用BioM-ALBERTxxlarge在ChemProt任務上實現了80.74的微F1分數，5個epoch的微調時間為43分鐘。

📚 詳細文檔

模型描述

該模型在PMC全文文章上進行了額外64k步的預訓練，批量大小為8192，權重初始化自BioM-ALBERT-xxlarge模型。因此，該模型的總訓練步數為264k + 64k = 328k步。由於隱藏層大小為4096，模型規模非常大。

為幫助資源有限的研究人員微調更大的模型，項目提供了一個使用PyTorch XLA的示例。PyTorch XLA（https://github.com/pytorch/xla）是一個允許在TPU單元上使用PyTorch的庫，Google Colab和Kaggle免費提供TPU資源。可參考此示例進行PyTorch/XLA的使用。

Colab Notebook示例

🔧 技術細節

該項目通過實證研究，使用不同設計選擇的大型Transformer模型進行生物醫學領域適配。評估了預訓練模型相對於文獻中其他現有生物醫學語言模型的性能，結果表明在多個生物醫學領域任務中取得了最先進的結果，同時強調了設計選擇對提高生物醫學語言模型性能的顯著影響。

📄 許可證

文檔未提及許可證信息。

🙏 致謝

感謝Tensorflow Research Cloud (TFRC)團隊為我們提供TPUv3單元的訪問權限。

📖 引用

@inproceedings{alrowili-shanker-2021-biom,
title = "{B}io{M}-Transformers: Building Large Biomedical Language Models with {BERT}, {ALBERT} and {ELECTRA}",
author = "Alrowili, Sultan and
Shanker, Vijay",
booktitle = "Proceedings of the 20th Workshop on Biomedical Language Processing",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bionlp-1.24",
pages = "221--227",
abstract = "The impact of design choices on the performance of biomedical language models recently has been a subject for investigation. In this paper, we empirically study biomedical domain adaptation with large transformer models using different design choices. We evaluate the performance of our pretrained models against other existing biomedical language models in the literature. Our results show that we achieve state-of-the-art results on several biomedical domain tasks despite using similar or less computational cost compared to other models in the literature. Our findings highlight the significant effect of design choices on improving the performance of biomedical language models.",
}