🚀 BioLinkBERT-base
BioLinkBERT-baseモデルは、PubMedのアブストラクトと引用リンク情報を用いて事前学習されています。このモデルは論文 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) で紹介されています。コードとデータは このリポジトリ で公開されています。
このモデルは、BLURB や MedQA-USMLE などのいくつかの生物医学分野の自然言語処理ベンチマークで最先端の性能を達成しています。
✨ 主な機能
モデルの概要
LinkBERTは、大量の文書コーパスで事前学習されたトランスフォーマーエンコーダ(BERTのような)モデルです。これはBERTの改良版で、ハイパーリンクや引用リンクなどの文書リンクを新たに捉えることで、複数の文書にまたがる知識を取り入れています。具体的には、単一の文書だけでなく、リンクされた文書を同じ言語モデルのコンテキストに入力することで事前学習されています。
LinkBERTは、BERTの代わりに使用できます。一般的な言語理解タスク(例:テキスト分類)でより良い性能を発揮し、知識集約型のタスク(例:質問応答)や文書間のタスク(例:読解、文書検索)にも特に有効です。
想定される用途と制限
このモデルは、質問応答、シーケンス分類、トークン分類などの下流タスクでファインチューニングすることで使用できます。また、生のモデルを特徴抽出(入力テキストの埋め込みを取得する)に使用することもできます。
📦 インストール
このセクションでは、具体的なインストール手順が提供されていないため、スキップされます。
💻 使用例
基本的な使用法
与えられたテキストの特徴を取得するために、PyTorchでこのモデルを使用する方法は以下の通りです。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
ファインチューニングには、このリポジトリ を使用するか、他のBERTのファインチューニングコードベースに従うことができます。
📚 ドキュメント
評価結果
下流タスクでファインチューニングした場合、LinkBERTは以下の結果を達成します。
生物医学分野のベンチマーク (BLURB, MedQA, MMLU など): BioLinkBERTは新たな最先端性能を達成します。
モデル |
BLURBスコア |
PubMedQA |
BioASQ |
MedQA-USMLE |
PubmedBERT-base |
81.10 |
55.8 |
87.5 |
38.1 |
BioLinkBERT-base |
83.39 |
70.2 |
91.4 |
40.0 |
BioLinkBERT-large |
84.30 |
72.2 |
94.8 |
44.6 |
モデル |
MMLU - 専門医療分野 |
GPT-3 (175 params) |
38.7 |
UnifiedQA (11B params) |
43.2 |
BioLinkBERT-large (340M params) |
50.7 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
🔧 技術詳細
このセクションでは、具体的な技術的な詳細が提供されていないため、スキップされます。
📚 引用
もしあなたのプロジェクトでLinkBERTが役立った場合、以下の文献を引用してください。
@InProceedings{yasunaga2022linkbert,
author = {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
title = {LinkBERT: Pretraining Language Models with Document Links},
year = {2022},
booktitle = {Association for Computational Linguistics (ACL)},
}