BioLinkBERT-largeオープンソース生物医学言語モデル - 知識を統合して医学情報処理性能を向上させる

ホーム

Biolinkbert Large

michiyasunagaによって開発

BioLinkBERTはPubMed抄録と文献引用リンク情報を用いて事前学習された生物医学言語モデルで、ドキュメント間の知識統合により性能を向上させています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #生物医学テキスト処理 #ドキュメント間知識統合 #高精度質問応答システム

ダウンロード数 3,152

リリース時間 : 3/8/2022

モデル概要

改良版BERTモデルで、文献引用などのドキュメントリンクを活用してドキュメント間の関連性を捕捉し、生物医学NLPタスクに適しています。複数のベンチマークテストでSOTA性能を達成。

モデル特徴

ドキュメント間知識統合

文献引用リンクを通じて関連ドキュメントをモデルに入力し、文脈理解能力を強化

生物医学領域最適化

PubMedデータに基づく事前学習で、生物医学テキスト処理専用に設計

マルチタスク適応性

質問応答や分類など様々な下流タスクのファインチューニングをサポート、特徴量抽出にも直接使用可能

モデル能力

生物医学テキスト理解

ドキュメント間関連性分析

質問応答システム構築

テキスト分類

シーケンスラベリング

特徴ベクトル抽出

使用事例

医学研究

薬物作用機序分析

薬物ターゲットと作用機序の記述テキストを解析

PubMedQAタスクで72.2%の精度を達成

臨床意思決定支援

医学試験質問応答

USMLE医学ライセンス試験問題に回答

MedQA-USMLEテストで44.6%の精度を達成、同規模モデルを上回る

🚀 BioLinkBERT-large

BioLinkBERT-largeモデルは、PubMedのアブストラクトと引用リンク情報を用いて事前学習されています。このモデルは論文LinkBERT: Pretraining Language Models with Document Links (ACL 2022)で紹介されています。コードとデータはこのリポジトリで入手可能です。

このモデルは、BLURBやMedQA-USMLEなどのいくつかのバイオメディカルNLPベンチマークで最先端の性能を達成しています。

✨ 主な機能

LinkBERTは、大量の文書コーパスで事前学習されたトランスフォーマーエンコーダ（BERTに似た）モデルです。これはBERTの改良版で、ハイパーリンクや引用リンクなどの文書リンクを新たに捉え、複数の文書にまたがる知識を取り入れています。具体的には、単一の文書だけでなく、リンクされた文書を同じ言語モデルのコンテキストに入力することで事前学習されています。

LinkBERTは、BERTの代替モデルとして使用できます。一般的な言語理解タスク（例：テキスト分類）でより良い性能を発揮し、知識集約型タスク（例：質問応答）や文書間タスク（例：読解、文書検索）にも特に有効です。

📦 インストール

このモデルは、Hugging Face Transformersライブラリを通じて利用できます。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

与えられたテキストの特徴量を取得するには、次のようにします。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-large')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-large')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

高度な使用法

ダウンストリームタスクでの微調整には、このリポジトリを使用するか、他のBERTの微調整コードベースに従って行うことができます。

📚 ドキュメント

このモデルは、質問応答、シーケンス分類、トークン分類などのダウンストリームタスクで微調整して使用することができます。また、生のモデルを特徴抽出（入力テキストの埋め込みを取得）に使用することもできます。

🔧 技術詳細

モデルは、PubMedのアブストラクトと引用リンク情報を用いて事前学習されています。これにより、複数の文書にまたがる知識を取り入れることができます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

🔍 評価結果

ダウンストリームタスクで微調整した場合、LinkBERTは以下の結果を達成します。

バイオメディカルベンチマーク（BLURB、MedQA、MMLUなど）：BioLinkBERTは新たな最先端性能を達成します。

	BLURBスコア	PubMedQA	BioASQ	MedQA-USMLE
PubmedBERT-base	81.10	55.8	87.5	38.1
BioLinkBERT-base	83.39	70.2	91.4	40.0
BioLinkBERT-large	84.30	72.2	94.8	44.6

	MMLU-専門医療分野
GPT-3 (175 params)	38.7
UnifiedQA (11B params)	43.2
BioLinkBERT-large (340M params)	50.7

📖 引用

もしあなたのプロジェクトでLinkBERTが役立った場合、以下を引用してください。

@InProceedings{yasunaga2022linkbert,
  author =  {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
  title =   {LinkBERT: Pretraining Language Models with Document Links},
  year =    {2022},  
  booktitle = {Association for Computational Linguistics (ACL)},  
}