🚀 PharmaCoNERデータセットで固有表現抽出(NER)タスク用にファインチューニングされたスペイン語RoBERTaベースのバイオメディカルモデル
このモデルは、PharmaCoNERデータセットを用いて固有表現抽出(NER)タスクに特化してファインチューニングされた、スペイン語のRoBERTaベースのバイオメディカルモデルです。医療分野の固有表現を高精度に抽出することができます。
🚀 クイックスタート
このモデルは、医療関連の文章から物質、化合物、タンパク質などの固有表現を抽出するために使用できます。以下のセクションで、モデルの詳細、使用方法、評価結果などを説明します。
📚 ドキュメント
目次
クリックして展開
モデルの説明
このモデルは、bsc-bio-ehr-es モデルをベースにファインチューニングされたものです。bsc-bio-ehr-es は RoBERTa ベースのモデルで、これまでに知られている最大のスペイン語のバイオメディカルコーパスを用いて事前学習されています。このコーパスは、バイオメディカル文書、臨床事例、電子医療記録(EHR)文書から構成され、合計11億トークンのクリーンで重複のないテキストが処理されています。
データセットと学習の詳細については、bsc-bio-ehr-es モデルカードを参照してください。
想定される用途と制限
このモデルは、医療関連の文章から物質、化合物、タンパク質などの固有表現を抽出するために設計されています。ただし、モデルにはバイアスが含まれる可能性があり、特定のドメインや文脈での性能が低下する場合があります。
使用方法
使用方法に関する具体的なコード例は、原READMEに記載されていませんでしたので、このセクションは省略します。
制限とバイアス
提出時点では、モデルに含まれるバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリングされたものであるため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的には、これらの分野での研究を行い、モデルカードを更新する予定です。
学習
使用されたデータセットは PharmaCoNER で、物質、化合物、タンパク質のエンティティで注釈付けされたNERデータセットです。詳細については、公式ウェブサイト を参照してください。
評価
F1スコア: 0.8913
評価の詳細については、GitHubリポジトリ を訪問してください。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.es にメールを送信してください。
著作権
スペインのデジタル化と人工知能国家事務局 (SEDIA) による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、Plan-TLの枠組みの下で、スペインのデジタル化と人工知能国家事務局 (SEDIA) によって資金提供されました。
引用情報
このモデルを使用する場合は、以下の文献を引用してください。
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任があり、いずれの場合も、人工知能の使用に関する適用規制を遵守する必要があります。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能国家事務局)や作成者(BSC – バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
情報テーブル
属性 |
詳情 |
言語 |
スペイン語 |
タグ |
バイオメディカル、臨床、電子医療記録(EHR)、スペイン語 |
ライセンス |
Apache License 2.0 |
データセット |
PlanTL-GOB-ES/pharmaconer |
評価指標 |
F1スコア |