🚀 スペイン語用のバイオメディカル言語モデル
このモデルは、スペイン語のバイオメディカル分野に特化した事前学習言語モデルです。医療関連のタスクにおいて高い性能を発揮します。
🚀 クイックスタート
このモデルは、マスク付き言語モデリングに特化しており、Fill Maskタスクにすぐに使用できます。推論APIを試すか、以下のセクションを読んで詳細を確認してください。
✨ 主な機能
- スペイン語のバイオメディカル分野に特化した事前学習言語モデル。
- マスク付き言語モデリングに最適化されており、Fill Maskタスクで高い性能を発揮。
- 固有表現認識やテキスト分類などの下流タスクでのファインチューニングに適しています。
📦 インストール
READMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
READMEには具体的なコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
モデルの説明
スペイン語用のバイオメディカル事前学習言語モデルです。コーパス、事前学習、評価に関する詳細については、公式のリポジトリを確認してください。
想定される用途と制限
このモデルは、Fill Maskタスクを実行するためのマスク付き言語モデリングにのみすぐに使用できます(推論APIを試すか、次のセクションを読んでください)。ただし、固有表現認識やテキスト分類などの下流タスクでのファインチューニングを目的としています。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は講じられていません。ただし、コーパスは複数のウェブソースからクローリング技術を使用して収集されているため、モデルにバイアスが含まれる可能性があることを十分に認識しています。将来的にこれらの分野での研究を行う予定であり、完了した場合はこのモデルカードを更新します。
トレーニング
トークン化とモデルの事前学習
このモデルは、複数のソースから収集されたスペイン語のバイオメディカルコーパスでトレーニングされたRoBERTaベースのモデルです(次のセクションを参照)。トレーニングコーパスは、元のRoBERTAモデルで使用されているByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化されており、語彙サイズは52,000トークンです。事前学習は、RoBERTaベースモデルで採用されているアプローチに従って、サブワードレベルでのマスク付き言語モデルトレーニングで構成されており、元の論文と同じハイパーパラメータが使用されています。トレーニングは、16GB DDRAMの16台のNVIDIA V100 GPUを使用して合計48時間行われ、Adamオプティマイザを使用し、ピーク学習率は0.0005、有効バッチサイズは2,048文です。
トレーニングコーパスと前処理
トレーニングコーパスは、公開されているコーパスとクローラーから収集されたいくつかのスペイン語のバイオメディカルコーパスで構成されています。高品質なトレーニングコーパスを取得するために、以下の操作を含むクリーニングパイプラインが適用されています。
- さまざまな形式のデータ解析
- 文分割
- 言語検出
- 不適切な文のフィルタリング
- 繰り返し内容の重複排除
- 元のドキュメント境界の保持
最後に、コーパスは連結され、コーパス間でさらにグローバルな重複排除が適用されます。結果として、約963Mトークンで構成される中規模のスペイン語用のバイオメディカルコーパスが得られます。以下の表は、個々のクリーニングされたコーパスの基本統計情報を示しています。
名前 |
トークン数 |
説明 |
Medical crawler |
903,558,136 |
スペイン語のバイオメディカルおよび健康分野に属する3,000以上のURLのクローラー。 |
Clinical cases misc. |
102,855,267 |
医療コンテンツの雑多な集合体で、主に臨床症例です。臨床症例報告は、医療関係者が患者の症例を共有する科学出版物であり、臨床ノートやドキュメントとは異なります。 |
Scielo |
60,007,289 |
2017年にスペイン語のSciELOサーバーからクロールされたスペイン語で書かれた出版物。 |
BARR2_background |
24,516,442 |
さまざまな臨床分野のスペイン語の臨床症例研究セクションを含むBiomedical Abbreviation Recognition and Resolution (BARR2)。 |
Wikipedia_life_sciences |
13,890,501 |
2021年4月1日にWikipedia API python libraryを使用して、"Ciencias_de_la_vida"カテゴリから最大5つのサブカテゴリまでクロールされたWikipedia記事。同じ記事への複数のリンクは、内容の重複を避けるために破棄されます。 |
Patents |
13,463,387 |
スペインの医療分野のGoogle特許(スペイン語)。特許のJsonファイルに受け入れられるコード(医療分野)は、"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"です。 |
EMEA |
5,377,448 |
欧州医薬品庁のPDFドキュメントから作成された並列コーパスから抽出されたスペイン語側のドキュメント。 |
mespen_Medline |
4,166,077 |
バイオメディカル科学文献からなるスペイン語 - 英語の並列コーパスのコレクションから抽出されたスペイン語側の記事。並列リソースのコレクションは、MedlinePlusソースから集約されています。 |
PubMed |
1,858,966 |
2017年にクロールされたPubMedリポジトリからのオープンアクセス記事。 |
評価
このモデルは、3つの臨床固有表現認識(NER)データセットを使用して、3つの固有表現認識(NER)タスクでファインチューニングされています。
- PharmaCoNER:スペイン語の医療テキストからの化学物質および薬物の言及認識に関するトラックです(詳細については、https://temu.bsc.es/pharmaconer/ を参照)。
- CANTEMIST:スペイン語での腫瘍形態の固有表現認識に特化した共有タスクです(詳細については、https://zenodo.org/record/3978041#.YTt5qH2xXbQ を参照)。
- ICTUSnet:18の異なるスペインの病院からの脳卒中で入院した患者の1,006件の退院レポートで構成されています。51種類の異なる変数に対して79,000以上のアノテーションが含まれています。
我々は、標準的な線形層とBIOタグ付けスキーマを使用して、NERタスクをトークン分類問題として扱いました。我々のモデルを、一般ドメインのスペイン語のroberta-base-bne、スペイン語をサポートする一般ドメインの多言語モデルmBERT、ドメイン固有の英語モデルBioBERT、および継続的事前学習に基づく3つのドメイン固有のモデル、mBERT-Galén、XLM-R-Galén、およびBETO-Galénと比較しました。
以下の表は、得られたF1スコアを示しています。
タスク/モデル |
bsc-bio-es |
XLM-R-Galén |
BETO-Galén |
mBERT-Galén |
mBERT |
BioBERT |
roberta-base-bne |
PharmaCoNER |
0.8907 |
0.8754 |
0.8537 |
0.8594 |
0.8671 |
0.8545 |
0.8474 |
CANTEMIST |
0.8220 |
0.8078 |
0.8153 |
0.8168 |
0.8116 |
0.8070 |
0.7875 |
ICTUSnet |
0.8727 |
0.8716 |
0.8498 |
0.8509 |
0.8631 |
0.8521 |
0.8677 |
ファインチューニングスクリプトは、公式のGitHub リポジトリにあります。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.esにメールを送信してください。
著作権
スペインのデジタル化と人工知能国家事務局 (SEDIA) による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペインのデジタル化と人工知能国家事務局 (SEDIA) によってPlan-TLの枠組み内で資金提供されています。
引用情報
これらのモデルを使用する場合は、以下の文献を引用してください。
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルのいずれかを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減し、いずれの場合も、人工知能の使用に関する規制を含む適用可能な規制に準拠することは、その者の責任です。
いかなる場合も、モデルの所有者(SEDIA - デジタル化と人工知能国家事務局)または作成者(BSC - バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。