BioLinkBERT-baseオープンソースモデル - 生物医学自然言語処理タスクの無料デプロイを支援

ホーム

Biolinkbert Base

michiyasunagaによって開発

BioLinkBERTはPubMedの抄録と文献引用リンク情報に基づいて事前学習された改良版BERTモデルで、生物医学NLPタスクに優れています

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #生物医学NLP #ドキュメント間事前学習 #文献引用強化

ダウンロード数 33.34k

リリース時間 : 3/8/2022

モデル概要

ドキュメント間リンク情報を統合することで言語表現能力を強化し、生物医学テキスト理解やQAシステムなどのタスクで優れた性能を発揮します

モデル特徴

ドキュメント間リンク事前学習

文献引用リンク関係を利用してドキュメント間の意味的関連性を学習

生物医学領域最適化

PubMedデータで訓練され、医療健康領域タスク向けに設計

知識強化表現

リンクされた文脈を通じてより豊富な専門領域知識を獲得

モデル能力

生物医学テキスト理解

医療QAシステム

文献分類

医学术語認識

医学エンティティリンキング

使用事例

臨床研究支援

薬物作用機序分析

文献から薬物作用機序関係を抽出

BioASQタスクで91.4%の精度を達成

医学教育

USMLE試験QA

米国医師免許試験関連質問に回答

MedQAテスト精度40.0%（PubmedBERTを上回る）

🚀 BioLinkBERT-base

BioLinkBERT-baseモデルは、PubMedのアブストラクトと引用リンク情報を用いて事前学習されています。このモデルは論文 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) で紹介されています。コードとデータはこのリポジトリで公開されています。

このモデルは、BLURB や MedQA-USMLE などのいくつかの生物医学分野の自然言語処理ベンチマークで最先端の性能を達成しています。

✨ 主な機能

モデルの概要

LinkBERTは、大量の文書コーパスで事前学習されたトランスフォーマーエンコーダ（BERTのような）モデルです。これはBERTの改良版で、ハイパーリンクや引用リンクなどの文書リンクを新たに捉えることで、複数の文書にまたがる知識を取り入れています。具体的には、単一の文書だけでなく、リンクされた文書を同じ言語モデルのコンテキストに入力することで事前学習されています。

LinkBERTは、BERTの代わりに使用できます。一般的な言語理解タスク（例：テキスト分類）でより良い性能を発揮し、知識集約型のタスク（例：質問応答）や文書間のタスク（例：読解、文書検索）にも特に有効です。

想定される用途と制限

このモデルは、質問応答、シーケンス分類、トークン分類などの下流タスクでファインチューニングすることで使用できます。また、生のモデルを特徴抽出（入力テキストの埋め込みを取得する）に使用することもできます。

📦 インストール

このセクションでは、具体的なインストール手順が提供されていないため、スキップされます。

💻 使用例

基本的な使用法

与えられたテキストの特徴を取得するために、PyTorchでこのモデルを使用する方法は以下の通りです。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

ファインチューニングには、このリポジトリを使用するか、他のBERTのファインチューニングコードベースに従うことができます。

📚 ドキュメント

評価結果

下流タスクでファインチューニングした場合、LinkBERTは以下の結果を達成します。

生物医学分野のベンチマーク (BLURB, MedQA, MMLU など): BioLinkBERTは新たな最先端性能を達成します。

モデル	BLURBスコア	PubMedQA	BioASQ	MedQA-USMLE
PubmedBERT-base	81.10	55.8	87.5	38.1
BioLinkBERT-base	83.39	70.2	91.4	40.0
BioLinkBERT-large	84.30	72.2	94.8	44.6

モデル	MMLU - 専門医療分野
GPT-3 (175 params)	38.7
UnifiedQA (11B params)	43.2
BioLinkBERT-large (340M params)	50.7

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

🔧 技術詳細

このセクションでは、具体的な技術的な詳細が提供されていないため、スキップされます。

📚 引用

もしあなたのプロジェクトでLinkBERTが役立った場合、以下の文献を引用してください。

@InProceedings{yasunaga2022linkbert,
  author =  {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
  title =   {LinkBERT: Pretraining Language Models with Document Links},
  year =    {2022},  
  booktitle = {Association for Computational Linguistics (ACL)},  
}