🚀 ロベルタ・スペイン語臨床試験固有表現抽出モデル (roberta-es-clinical-trials-ner)
この医療用固有表現抽出モデルは、統合医療言語システム(UMLS)(Bodenreider 2004)から4種類の意味グループを検出します。
- ANAT: 身体部位と解剖学的構造(例: garganta、「喉」)
- CHEM: 化学物質と薬理学的物質(例: aspirina、「アスピリン」)
- DISO: 病的状態(例: dolor、「痛み」)
- PROC: 診断および治療手順、実験室分析、医療研究活動(例: cirugía、「手術」)
このモデルは評価セットで次の結果を達成しています。
- 損失: 0.1580
- 適合率: 0.8495
- 再現率: 0.8806
- F1スコア: 0.8647
- 正解率: 0.9583
🚀 クイックスタート
このモデルは、臨床試験に関するスペイン語テキストから特定の医療関連の固有表現を抽出するために使用できます。以下のウィジェットで試すことができます。
- 「El ensayo clínico con vacunas promete buenos resultados para la infección por SARS-CoV-2.」
- 「El paciente toma aspirina para el dolor de cabeza y porque la garganta también le duele mucho.」
- 「El mejor tratamiento actual contra la COVID es la vacunación.」
✨ 主な機能
- 4種類の医療関連の意味グループ(ANAT、CHEM、DISO、PROC)を検出します。
- スペイン語の臨床試験テキストに対して高精度な固有表現抽出を行います。
📚 ドキュメント
モデルの説明
このモデルは、bsc-bio-ehr-esという事前学習モデルを適応させたものです。この事前学習モデルは、Pio Carriño et al. (2022)で発表されました。このモデルは、臨床試験に関するスペイン語テキストで医療用固有表現抽出を行うためにファインチューニングされています。ファインチューニングには、CT-EBM-SPコーパス (Campillos-Llanos et al. 2021)が使用されています。
想定される用途と制限
開示事項: このモデルは開発中であり、改善が必要です。人間の支援と監督なしに医療上の意思決定に使用してはなりません
このモデルは汎用目的で設計されており、バイアスやその他の望ましくない歪みがある可能性があります。
これらのモデルを使用したシステムやサービスを展開または提供する第三者は、その使用に伴うリスクを軽減する責任があることに留意すべきです。第三者は、いかなる場合も、適用される規制、特に人工知能の使用に関する規制を遵守する必要があります。
モデルの所有者または作成者(CSIC – Consejo Superior de Investigaciones Científicas)は、第三者によるこれらのモデルの使用に起因するいかなる結果に対しても責任を負いません。
学習と評価データ
ファインチューニングに使用されたデータは、Clinical Trials for Evidence-Based-Medicine in Spanish corpusです。
これは、臨床試験研究と臨床試験の告知に関する1200のテキストのコレクションです。
- クリエイティブ・コモンズライセンスの下で公開されたジャーナルの500の抄録。例えば、PubMedやScientific Electronic Library Online(SciELO)で入手可能。
- 欧州臨床試験登録簿とRepositorio Español de Estudios Clínicosに公開された700の臨床試験告知。
このリソースを使用する場合は、次のように引用してください。
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carri{\'o}n, Adri{\'a}n and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは次の通りです。
- 学習率: 2e-05
- 学習バッチサイズ: 16
- 評価バッチサイズ: 16
- シード: 42
- オプティマイザ: Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラの種類: 線形
- エポック数: 4
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
適合率 |
再現率 |
F1スコア |
正解率 |
0.0771 |
1.0 |
785 |
0.1274 |
0.8449 |
0.8797 |
0.8619 |
0.9608 |
0.0415 |
2.0 |
1570 |
0.1356 |
0.8569 |
0.8856 |
0.8710 |
0.9528 |
0.0262 |
3.0 |
2355 |
0.1562 |
0.8619 |
0.8798 |
0.8707 |
0.9526 |
0.0186 |
4.0 |
3140 |
0.1582 |
0.8609 |
0.8846 |
0.8726 |
0.9527 |
クラス別の結果(テストセット)
クラス |
適合率 |
再現率 |
F1スコア |
サポート |
ANAT |
0.7069 |
0.6518 |
0.6783 |
359 |
CHEM |
0.9162 |
0.9228 |
0.9195 |
2929 |
DISO |
0.8805 |
0.8918 |
0.8861 |
3042 |
PROC |
0.8198 |
0.8720 |
0.8450 |
3954 |
フレームワークのバージョン
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
環境への影響
炭素排出量は、Lacoste et al. (2019)によるMachine Learning Impact calculatorで推定されています。炭素排出量は、ハードウェア、実行時間、クラウドプロバイダ、およびコンピューティングリージョンを指定することで推定されます。
- ハードウェアタイプ: 1 GPU 24 GB RTX 3090
- 使用時間: 4' (0.07時間)
- コンピューティングリージョン: スペイン、ヨーロッパ
- 排出された炭素量(消費電力 x 時間 x 電力網の位置に基づく炭素排出量): 0.01 kg eq. CO2
(炭素オフセット: 0)
資金提供
このモデルは、NLPMedTermプロジェクトの注釈付きデータセットを使用して作成されました。このプロジェクトは、InterTalentum UAM、Marie Skłodowska-Curie COFUND助成金(2019 - 2021)(H2020プログラム、契約番号713366)およびKnowledge Engineering Institute(IIC-UAM)のComputational Linguistics Chairによって資金提供されています。
モデルのファインチューニングに使用したコンピューティング環境を提供してくれた、マドリード自治大学(Universidad Autónoma de Madrid)のComputational Linguistics Laboratory (LLI)に感謝します。
📄 ライセンス
表示 - 非営利 4.0国際 (CC BY-NC 4.0)