Roberta Base Biomedical Clinical Es
モデル概要
モデル特徴
モデル能力
使用事例
🚀 スペイン語向けの生物医学臨床言語モデル
このモデルは、スペイン語の生物医学臨床コーパスを使用して学習された言語モデルで、医療分野のタスクに役立ちます。
🚀 クイックスタート
このモデルは、マスク付き言語モデリングに使用でき、Fill Maskタスクを実行することができます。以下のセクションで使用方法を説明します。
✨ 主な機能
- スペイン語の生物医学臨床コーパスを使用して学習されたモデルです。
- マスク付き言語モデリングに使用でき、Fill Maskタスクを実行できます。
- 固有表現認識やテキスト分類などの下流タスクでの微調整が可能です。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")
出力結果
[
{
"sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
"score": 0.9855039715766907,
"token": 3529,
"token_str": " hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
"score": 0.0039140828885138035,
"token": 1945,
"token_str": " diabetes"
},
{
"sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
"score": 0.002484665485098958,
"token": 11483,
"token_str": " hipotensión"
},
{
"sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
"score": 0.0023484621196985245,
"token": 12238,
"token_str": " Hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la presión arterial.",
"score": 0.0008009297889657319,
"token": 2267,
"token_str": " presión"
}
]
📚 ドキュメント
モデルの説明
このモデルは、スペイン語の生物医学臨床コーパスを使用して学習されたRoBERTaベースの言語モデルです。
意図された用途と制限
このモデルは、Fill Maskタスクを実行するためのマスク付き言語モデリングにのみ使用できます。ただし、固有表現認識やテキスト分類などの下流タスクでの微調整を意図しています。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための措置は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、モデルにバイアスが存在する可能性があることを十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合はこのモデルカードを更新します。
学習
学習コーパスは、元のRoBERTaモデルで使用されているByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化されており、語彙サイズは52,000トークンです。事前学習は、RoBERTaベースモデルで採用されているアプローチに従って、サブワードレベルでのマスク付き言語モデル学習で構成されており、元の論文と同じハイパーパラメータが使用されています。学習は、16GB DDRAMの16台のNVIDIA V100 GPUを使用して合計48時間行われ、Adamオプティマイザを使用し、ピーク学習率は0.0005、有効バッチサイズは2,048文です。
学習コーパスは、公開されているコーパスやクローラーから収集されたいくつかのスペイン語の生物医学コーパスと、278,000を超える臨床文書やノートから収集された実世界の臨床コーパスで構成されています。臨床言語の特徴を保持しながら高品質な学習コーパスを取得するために、クリーニングパイプラインは生物医学コーパスにのみ適用され、臨床コーパスはクリーニングされていません。本質的に、使用されるクリーニング操作は以下の通りです。
- さまざまな形式のデータ解析
- 文分割
- 言語検出
- 不適切な文のフィルタリング
- 重複内容の削除
- 元の文書境界の保持
その後、生物医学コーパスが連結され、生物医学コーパス間でさらにグローバルな重複削除が適用されます。最終的に、臨床コーパスがクリーニングされた生物医学コーパスに連結され、10億を超えるトークンで構成される中規模のスペイン語の生物医学臨床コーパスが生成されます。以下の表は、個々のクリーニングされたコーパスの基本統計情報を示しています。
名前 | トークン数 | 説明 |
---|---|---|
Medical crawler | 745,705,946 | スペイン語の生物医学および健康分野に属する3,000を超えるURLのクローラー。 |
Clinical cases misc. | 102,855,267 | 医学的な内容の雑多な集まりで、主に臨床症例です。臨床症例報告は、医療従事者が患者の症例を共有する科学出版物であり、臨床ノートや文書とは異なります。 |
Clinical notes/documents | 91,250,080 | 278,000を超える臨床文書のコレクションで、退院報告、臨床経過ノート、X線報告などが含まれ、合計9100万トークンです。 |
Scielo | 60,007,289 | 2017年にスペインのSciELOサーバーからクロールされたスペイン語で書かれた出版物。 |
BARR2_background | 24,516,442 | さまざまな臨床分野のスペイン語の臨床症例研究セクションを含む生物医学略語認識と解決 (BARR2)。 |
Wikipedia_life_sciences | 13,890,501 | 2021年4月1日にWikipedia API pythonライブラリを使用して、"Ciencias_de_la_vida"カテゴリから最大5つのサブカテゴリまでクロールされたWikipedia記事。同じ記事への複数のリンクは、内容の重複を避けるために破棄されます。 |
Patents | 13,463,387 | スペインの医療分野のGoogle特許 (スペイン語)。特許のJsonファイルに受け入れられるコード (医療分野) は、"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"です。 |
EMEA | 5,377,448 | 欧州医薬品庁のPDF文書から作成された並列コーパスから抽出されたスペイン語側の文書。 |
mespen_Medline | 4,166,077 | 生物医学の科学文献からなるスペイン語 - 英語の並列コーパスのコレクションから抽出されたスペイン語側の記事。並列リソースのコレクションは、MedlinePlusソースから集約されています。 |
PubMed | 1,858,966 | 2017年にクロールされたPubMedリポジトリのオープンアクセス記事。 |
評価
このモデルは、以下のデータセットを使用して固有表現認識 (NER) で評価されています。
- PharmaCoNER: スペイン語の医学テキストからの化学物質と薬物の言及認識に関するトラックです (詳細は: https://temu.bsc.es/pharmaconer/ を参照)。
- CANTEMIST: スペイン語での腫瘍形態の固有表現認識に特化した共有タスクです (詳細は: https://zenodo.org/record/3978041#.YTt5qH2xXbQ を参照)。
- ICTUSnet: 18の異なるスペインの病院から脳卒中で入院した患者の1,006件の退院報告書で構成されています。51種類の異なる変数に対して79,000を超えるアノテーションが含まれています。
評価結果は、mBERT と BETO モデルと比較されています。
F1 - 精度 - 再現率 | roberta-base-biomedical-clinical-es | mBERT | BETO |
---|---|---|---|
PharmaCoNER | 90.04 - 88.92 - 91.18 | 87.46 - 86.50 - 88.46 | 88.18 - 87.12 - 89.28 |
CANTEMIST | 83.34 - 81.48 - 85.30 | 82.61 - 81.12 - 84.15 | 82.42 - 80.91 - 84.00 |
ICTUSnet | 88.08 - 84.92 - 91.50 | 86.75 - 83.53 - 90.23 | 85.95 - 83.10 - 89.02 |
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細情報については、plantl-gob-es@bsc.esにメールを送信してください。
著作権
スペインのデジタル化と人工知能に関する国家事務局 (SEDIA) による著作権 (2022)
ライセンス情報
資金提供
この研究は、スペインのデジタル化と人工知能に関する国家事務局 (SEDIA) がPlan-TLの枠組み内で資金提供しています。
引用情報
このモデルを使用する場合は、最新のプレプリントを引用してください。
@misc{carrino2021biomedical,
title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2109.03570},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Medical Crawlerコーパスを使用する場合は、プレプリントを引用してください。
@misc{carrino2021spanish,
title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
year={2021},
eprint={2109.07765},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免責事項
クリックして展開
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に起因するリスクを軽減する責任があり、いかなる場合も、人工知能の使用に関する規制を含む適用可能な規制に準拠する必要があります。
いかなる場合も、モデルの所有者 (SEDIA – デジタル化と人工知能に関する国家事務局) および作成者 (BSC – Barcelona Supercomputing Center) は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。



