🚀 BioLinkBERT-base
BioLinkBERT-base 模型在 PubMed 摘要以及引用链接信息上进行了预训练。它在论文 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) 中被提出。代码和数据可在 此仓库 中获取。
该模型在多个生物医学自然语言处理基准测试中取得了最先进的性能,如 BLURB 和 MedQA-USMLE。
🚀 快速开始
BioLinkBERT-base 模型可直接使用,也可在下游任务中进行微调以获得更好的性能。以下是使用该模型获取给定文本特征的示例代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
✨ 主要特性
- 预训练数据丰富:基于 PubMed 摘要和引用链接信息进行预训练,融合多文档知识。
- 性能卓越:在多个生物医学自然语言处理基准测试中达到了最先进的性能。
- 应用广泛:可作为 BERT 的直接替代品,适用于通用语言理解任务、知识密集型任务和跨文档任务。
📚 详细文档
模型描述
LinkBERT 是一种基于大型文档语料库进行预训练的 Transformer 编码器(类似 BERT)模型。它是 BERT 的改进版本,新增了对 文档链接(如超链接和引用链接)的捕获,以纳入跨多个文档的知识。具体而言,除了单个文档外,它还通过将链接的文档输入到同一语言模型上下文中进行预训练。
LinkBERT 可以直接替代 BERT。它在通用语言理解任务(如文本分类)中表现更好,对于 知识密集型 任务(如问答)和 跨文档 任务(如阅读理解、文档检索)也特别有效。
预期用途和限制
该模型可通过在下游任务(如问答、序列分类和标记分类)上进行微调来使用。您还可以使用原始模型进行特征提取(即获取输入文本的嵌入表示)。
使用方法
要在 PyTorch 中使用该模型获取给定文本的特征,请参考以下代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
对于微调,您可以使用 此仓库 或遵循其他 BERT 微调代码库。
评估结果
在下游任务上进行微调时,LinkBERT 取得了以下结果:
生物医学基准测试(BLURB、MedQA、MMLU 等):BioLinkBERT 达到了新的最先进水平。
|
BLURB 得分 |
PubMedQA |
BioASQ |
MedQA-USMLE |
PubmedBERT-base |
81.10 |
55.8 |
87.5 |
38.1 |
BioLinkBERT-base |
83.39 |
70.2 |
91.4 |
40.0 |
BioLinkBERT-large |
84.30 |
72.2 |
94.8 |
44.6 |
|
MMLU - 专业医学 |
GPT - 3 (175 参数) |
38.7 |
UnifiedQA (11B 参数) |
43.2 |
BioLinkBERT - large (340M 参数) |
50.7 |
引用
如果您在项目中发现 LinkBERT 很有用,请引用以下内容:
@InProceedings{yasunaga2022linkbert,
author = {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
title = {LinkBERT: Pretraining Language Models with Document Links},
year = {2022},
booktitle = {Association for Computational Linguistics (ACL)},
}
📄 许可证
本项目采用 Apache-2.0 许可证。