Bsc Bio Ehr Es
モデル概要
モデル特徴
モデル能力
使用事例
🚀 スペイン語用の生物医学臨床言語モデル
このモデルは、スペイン語用の生物医学臨床分野の言語モデルです。医療関連の文章に特化しており、様々な臨床タスクに利用できます。
🚀 クイックスタート
このモデルは、マスク付き言語モデリングによるFill Maskタスクにすぐに使用できます。推論APIを試すか、以下のセクションを参照してください。また、固有表現認識やテキスト分類などの下流タスクにファインチューニングすることも想定されています。
✨ 主な機能
- スペイン語の生物医学臨床分野に特化した事前学習言語モデル。
- Fill Maskタスクに即座に使用可能。
- 固有表現認識やテキスト分類などの下流タスクへのファインチューニングが可能。
📦 インストール
ドキュメントにはインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
ドキュメントには使用例のコードが記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの説明
スペイン語用の生物医学事前学習言語モデルです。コーパス、事前学習、評価に関する詳細については、公式のリポジトリを確認してください。
想定される用途と制限
このモデルは、Fill Maskタスクを実行するためのマスク付き言語モデリングにのみ即座に使用できます(推論APIを試すか、次のセクションを参照)。ただし、固有表現認識やテキスト分類などの下流タスクにファインチューニングすることが想定されています。
制限事項とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されたため、モデルにバイアスが存在する可能性があることは十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合はこのモデルカードが更新されます。
トレーニング
トークン化とモデルの事前学習
このモデルは、複数のソースから収集されたスペイン語の生物医学臨床コーパスで学習されたRoBERTaベースのモデルです(次のセクションを参照)。トレーニングコーパスは、元のRoBERTaモデルで使用されているByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化されており、語彙サイズは52,000トークンです。事前学習は、RoBERTaベースモデルで採用されているアプローチに従って、サブワードレベルでのマスク付き言語モデルトレーニングで行われ、元の論文と同じハイパーパラメータが使用されています。トレーニングは、16GB DDRAMの16台のNVIDIA V100 GPUを使用して合計48時間行われ、Adamオプティマイザを使用し、ピーク学習率は0.0005、有効バッチサイズは2,048文です。
トレーニングコーパスと前処理
トレーニングコーパスは、公開されているコーパスやクローラーから収集されたいくつかのスペイン語の生物医学コーパスと、278,000以上の臨床文書やノートから収集された実世界の臨床コーパスで構成されています。臨床言語の特徴を維持しながら高品質なトレーニングコーパスを得るために、クリーニングパイプラインは生物医学コーパスにのみ適用され、臨床コーパスはクリーニングされていません。本質的に使用されるクリーニング操作は以下の通りです。
- さまざまな形式のデータ解析
- 文分割
- 言語検出
- 不適切な文のフィルタリング
- 繰り返し内容の重複排除
- 元の文書境界の保持
その後、生物医学コーパスが連結され、生物医学コーパス間でさらにグローバルな重複排除が適用されます。最終的に、臨床コーパスがクリーニングされた生物医学コーパスに連結され、10億以上のトークンから構成される中規模のスペイン語用の生物医学臨床コーパスが作成されます。以下の表は、個々のクリーニングされたコーパスの基本統計情報を示しています。
名前 | トークン数 | 説明 |
---|---|---|
Medical crawler | 903,558,13 | スペイン語の生物医学および健康分野に属する3,000以上のURLのクローラー。 |
Clinical cases misc. | 102,855,267 | 医学コンテンツの雑多な集合体で、主に臨床事例です。臨床事例報告は、医療従事者が患者事例を共有する科学出版物であり、臨床ノートや文書とは異なります。 |
EHR documents | 95,267,20 | 278,000以上の臨床文書のコレクションで、退院報告、臨床経過ノート、X線報告などが含まれ、合計9100万トークンです。 |
Scielo | 60,007,289 | 2017年にスペインのSciELOサーバーからクロールされたスペイン語で書かれた出版物。 |
BARR2_background | 24,516,442 | さまざまな臨床分野のスペイン語の臨床事例研究セクションを含むBiomedical Abbreviation Recognition and Resolution (BARR2)。 |
Wikipedia_life_sciences | 13,890,501 | 2021年4月1日にWikipedia API python libraryを使用して、"Ciencias_de_la_vida"カテゴリから最大5つのサブカテゴリまでクロールされたWikipedia記事。同じ記事への複数のリンクは、内容の重複を避けるために破棄されます。 |
Patents | 13,463,387 | スペインの医療分野のGoogle特許(スペイン語)。特許のJsonファイルに受け入れられるコード(医療分野)は、"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"です。 |
EMEA | 5,377,448 | 欧州医薬品庁のPDF文書から作成された並列コーパスから抽出されたスペイン語側の文書。 |
mespen_Medline | 4,166,077 | 生物医学科学文献からなるスペイン語 - 英語の並列コーパスのコレクションから抽出されたスペイン語側の記事。並列リソースのコレクションは、MedlinePlusソースから集約されています。 |
PubMed | 1,858,966 | 2017年にクロールされたPubMedリポジトリからのオープンアクセス記事。 |
評価
このモデルは、3つの臨床固有表現認識データセットを使用して、3つの固有表現認識(NER)タスクでファインチューニングされています。
- PharmaCoNER:スペイン語の医学テキストからの化学物質および薬物の言及認識に関するトラックです(詳細については、https://temu.bsc.es/pharmaconer/ を参照)。
- CANTEMIST:スペイン語での腫瘍形態の固有表現認識に特化した共有タスクです(詳細については、https://zenodo.org/record/3978041#.YTt5qH2xXbQ を参照)。
- ICTUSnet:18の異なるスペインの病院からの脳卒中で入院した患者の1,006件の退院報告書で構成されています。51種類の異なる変数に対して79,000以上のアノテーションが含まれています。
NERタスクは、標準的な線形層とBIOタグ付けスキーマを使用してトークン分類問題として扱われました。私たちのモデルを、一般ドメインのスペイン語のroberta-base-bne、スペイン語をサポートする一般ドメインの多言語モデルmBERT、ドメイン固有の英語モデルBioBERT、および継続的事前学習に基づく3つのドメイン固有のモデルmBERT-Galén、XLM-R-Galén、BETO-Galénと比較しました。以下の表は、得られたF1スコアを示しています。
タスク/モデル | bsc-bio-ehr-es | XLM-R-Galén | BETO-Galén | mBERT-Galén | mBERT | BioBERT | roberta-base-bne |
---|---|---|---|---|---|---|---|
PharmaCoNER | 0.8913 | 0.8754 | 0.8537 | 0.8594 | 0.8671 | 0.8545 | 0.8474 |
CANTEMIST | 0.8340 | 0.8078 | 0.8153 | 0.8168 | 0.8116 | 0.8070 | 0.7875 |
ICTUSnet | 0.8756 | 0.8716 | 0.8498 | 0.8509 | 0.8631 | 0.8521 | 0.8677 |
ファインチューニングスクリプトは、公式のGitHub リポジトリで見つけることができます。
追加情報
作者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.esにメールを送信してください。
著作権
スペインの国家デジタル化と人工知能事務局 (SEDIA) による著作権 (2022)
ライセンス情報
資金提供
この研究は、Plan-TLの枠組み内でスペインの国家デジタル化と人工知能事務局 (SEDIA) によって資金提供されています。
引用情報
これらのモデルを使用する場合は、以下のように引用してください。
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデルのいずれかを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は彼ら自身にあり、いずれの場合も、人工知能の使用に関する規制を含む適用可能な規制に準拠する必要があります。
いかなる場合も、モデルの所有者(SEDIA – 国家デジタル化と人工知能事務局)および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
🔧 技術詳細
ドキュメントには具体的な技術説明が十分に記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルは、Apache License, Version 2.0の下でライセンスされています。



