BioLinkBERT-base开源模型 - 助力生物医学自然语言处理任务免费部署

首页

Biolinkbert Base

由 michiyasunaga 开发

BioLinkBERT是基于PubMed摘要及文献引用链接信息预训练的改进版BERT模型，擅长生物医学NLP任务

大型语言模型

Transformers

英语开源协议:Apache-2.0 #生物医学NLP #跨文档预训练 #文献引用增强

下载量 33.34k

发布时间 : 3/8/2022

模型简介

通过整合跨文档链接信息增强语言表示能力，在生物医学文本理解、问答系统等任务中表现优异

模型特点

跨文档链接预训练

利用文献引用链接关系学习跨文档语义关联

生物医学领域优化

基于PubMed数据训练，专为医疗健康领域任务设计

知识增强表示

通过链接上下文捕获更丰富的专业领域知识

模型能力

生物医学文本理解

医学问答系统

文献分类

医学术语识别

医学实体链接

使用案例

临床研究支持

药物机制分析

从文献中提取药物作用机制关系

在BioASQ任务中达到91.4%准确率

医学教育

USMLE考试问答

回答美国医师执照考试相关问题

MedQA测试准确率40.0%（优于PubmedBERT）

🚀 BioLinkBERT-base

BioLinkBERT-base 模型在 PubMed 摘要以及引用链接信息上进行了预训练。它在论文 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) 中被提出。代码和数据可在此仓库中获取。

该模型在多个生物医学自然语言处理基准测试中取得了最先进的性能，如 BLURB 和 MedQA-USMLE。

🚀 快速开始

BioLinkBERT-base 模型可直接使用，也可在下游任务中进行微调以获得更好的性能。以下是使用该模型获取给定文本特征的示例代码：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

✨ 主要特性

预训练数据丰富：基于 PubMed 摘要和引用链接信息进行预训练，融合多文档知识。
性能卓越：在多个生物医学自然语言处理基准测试中达到了最先进的性能。
应用广泛：可作为 BERT 的直接替代品，适用于通用语言理解任务、知识密集型任务和跨文档任务。

📚 详细文档

模型描述

LinkBERT 是一种基于大型文档语料库进行预训练的 Transformer 编码器（类似 BERT）模型。它是 BERT 的改进版本，新增了对 文档链接（如超链接和引用链接）的捕获，以纳入跨多个文档的知识。具体而言，除了单个文档外，它还通过将链接的文档输入到同一语言模型上下文中进行预训练。

LinkBERT 可以直接替代 BERT。它在通用语言理解任务（如文本分类）中表现更好，对于 知识密集型 任务（如问答）和 跨文档 任务（如阅读理解、文档检索）也特别有效。

预期用途和限制

该模型可通过在下游任务（如问答、序列分类和标记分类）上进行微调来使用。您还可以使用原始模型进行特征提取（即获取输入文本的嵌入表示）。

使用方法

要在 PyTorch 中使用该模型获取给定文本的特征，请参考以下代码：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

对于微调，您可以使用此仓库或遵循其他 BERT 微调代码库。

评估结果

在下游任务上进行微调时，LinkBERT 取得了以下结果：

生物医学基准测试（BLURB、MedQA、MMLU 等）：BioLinkBERT 达到了新的最先进水平。

	BLURB 得分	PubMedQA	BioASQ	MedQA-USMLE
PubmedBERT-base	81.10	55.8	87.5	38.1
BioLinkBERT-base	83.39	70.2	91.4	40.0
BioLinkBERT-large	84.30	72.2	94.8	44.6

	MMLU - 专业医学
GPT - 3 (175 参数)	38.7
UnifiedQA (11B 参数)	43.2
BioLinkBERT - large (340M 参数)	50.7

引用

如果您在项目中发现 LinkBERT 很有用，请引用以下内容：

@InProceedings{yasunaga2022linkbert,
  author =  {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
  title =   {LinkBERT: Pretraining Language Models with Document Links},
  year =    {2022},  
  booktitle = {Association for Computational Linguistics (ACL)},  
}