BiomedBERTオープンソース生物医学大規模言語モデル - 生物医学自然言語処理タスクのパフォーマンスを向上させる

ホーム

Biomednlp BiomedBERT Large Uncased Abstract

microsoftによって開発

BiomedBERTはPubMedの抄録テキストを基にゼロから事前学習された生物医学分野向け大規模言語モデルで、生物医学自然言語処理タスクの性能向上に特化しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #生物医学テキスト処理 #PubMed抄録事前学習 #チロシンキナーゼ阻害剤識別

ダウンロード数 637

リリース時間 : 1/2/2023

モデル概要

このモデルは生物医学分野に最適化されたBERTバリアントで、汎用モデルの継続学習ではなくゼロからの事前学習により、生物医学NLPタスクでの性能を大幅に向上させています。

モデル特徴

ドメイン特化事前学習

PubMed抄録を基にゼロから事前学習を行い、汎用コーパスではなく生物医学分野に特化して最適化

性能向上

研究によると、生物医学分野ではゼロからの事前学習が汎用モデルの継続学習よりも大きな性能向上をもたらす

大規模モデル

BLURBベンチマーク性能に対する大規模モデルの影響を調査

モデル能力

生物医学テキスト理解

生物医学エンティティ認識

生物医学関係抽出

生物医学質問応答

使用事例

薬物研究

薬物作用機序分析

チロシンキナーゼ阻害剤の識別など、薬物作用機序を特定

薬物クラスと作用標的を正確に予測可能

医学文献処理

抄録理解と分析

PubMed抄録テキストを処理し、重要な医学情報を抽出

専門的な医学文献の内容を効率的に理解

🚀 MSR BiomedBERT-large (abstracts only)

このモデルは、自然言語処理（NLP）タスクにおいて、バイオメディカル分野の大量の未ラベルテキストを利用して学習された大規模な言語モデルです。

🚀 クイックスタート

このモデルは以前、"PubMedBERT large (abstracts)" という名前でした。
新しいモデル名 "microsoft/BiomedNLP-BiomedBERT-large-uncased-abstract" を採用するか、古い名前を参照する場合は transformers ライブラリをバージョン4.22以上に更新してください。

大規模なニューラル言語モデル（例えばBERT）の事前学習は、多くの自然言語処理（NLP）タスクで印象的な成果をもたらしています。しかし、ほとんどの事前学習は、ニュース通信やWebなどの一般ドメインのコーパスに焦点を当てています。一般的な考え方として、特定ドメインの事前学習でも、一般ドメインの言語モデルから始めることが有益であるとされています。最近の研究では、バイオメディシンのように大量の未ラベルテキストがあるドメインでは、一般ドメインの言語モデルを継続的に事前学習するよりも、ゼロから言語モデルを事前学習する方が大幅な改善をもたらすことが示されています。その後の研究では、より大きなモデルサイズと、これがBLURBベンチマークでのパフォーマンスに与える影響が調査されています。

このBiomedBERTは、PubMedの_アブストラクト_を使用してゼロから事前学習されています。

📚 ドキュメント

引用

このBiomedBERTがあなたの研究で役立った場合、以下の論文を引用してください。

@misc{https://doi.org/10.48550/arxiv.2112.07869,
  doi = {10.48550/ARXIV.2112.07869},
  url = {https://arxiv.org/abs/2112.07869},
  author = {Tinn, Robert and Cheng, Hao and Gu, Yu and Usuyama, Naoto and Liu, Xiaodong and Naumann, Tristan and Gao, Jianfeng and Poon, Hoifung},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing},
  publisher = {arXiv},
  year = {2021},
  copyright = {arXiv.org perpetual, non-exclusive license}
}