🚀 roberta-es-clinical-trials-temporal-ner
この固有表現抽出モデルは、TimeMLスキーム (Pustejovsky et al. 2005)に従って時間表現(TIMEX)を検出するとともに、年齢に関する固有表現も検出します。
- 年齢: 例 18 años
- 日付: 例 2022, 26 de noviembre
- 期間: 例 3 horas
- 頻度: 例 semanal
- 時間: 例 noche
このモデルは、テストセットで以下の結果を達成しています(トレーニングセットと開発セットでトレーニングした場合;結果は5回の評価ラウンドで平均化されています)。
- 適合率: 0.900 (±0.011)
- 再現率: 0.900 (±0.009)
- F1値: 0.900 (±0.007)
- 正解率: 0.996 (±0.001)
📚 ドキュメント
モデルの説明
このモデルは、bsc-bio-ehr-esという事前学習モデルを適応させたものです。この事前学習モデルは、Pio Carriño et al. (2022)で提示されたものです。このモデルは、スペイン語の臨床試験に関するテキストで時間的固有表現抽出を行うためにファインチューニングされています。ファインチューニングには、CT-EBM-ESコーパス (Campillos-Llanos et al. 2021)が使用されています。
このモデルを使用する場合は、以下のように引用してください。
@article{campillosetal2024,
title = {{Hybrid tool for semantic annotation and concept extraction of medical texts in Spanish}},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián},
journal = {BMC Bioinformatics},
year={2024},
publisher={BioMed Central}
}
想定される用途と制限
⚠️ 重要提示
このモデルは開発中であり、改善が必要です。人間の支援と監督なしに医療上の意思決定に使用しないでください。
このモデルは汎用目的で開発されており、バイアスや望ましくない歪みがある可能性があります。
これらのモデルを使用したシステムやサービスを展開または提供する第三者は、その使用に伴うリスクを軽減する責任があることに留意する必要があります。第三者は、いかなる場合も、適用される規制、特に人工知能の使用に関する規制を遵守する必要があります。
モデルの所有者または作成者は、第三者によるこれらのモデルの使用に起因する結果について、いかなる場合も責任を負いません。
トレーニングと評価データ
ファインチューニングに使用されたデータは、Clinical Trials for Evidence-Based-Medicine in Spanish corpusです。これは、臨床試験研究や臨床試験のアナウンスに関する1200のテキストのコレクションです。
- クリエイティブ・コモンズライセンスの下で公開されたジャーナルの500の要約。例えば、PubMedやScientific Electronic Library Online (SciELO)で入手可能なもの。
- 欧州臨床試験登録簿とスペイン臨床試験リポジトリに公開された700の臨床試験アナウンス。
CT-EBM-ESリソースを使用する場合は、以下のように引用してください。
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
トレーニング手順
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 2e-05
- トレーニングバッチサイズ: 16
- 評価バッチサイズ: 16
- シード: 5回の評価ラウンドで異なるシードを使用し、最良の結果を得たモデルをアップロードしました。
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: 線形
- エポック数: 平均14エポック (±2.24)
トレーニング結果(テストセット;異なるシードで5回のラウンドの平均と標準偏差)
適合率 |
再現率 |
F1値 |
正解率 |
0.900 (±0.011) |
0.900 (±0.009) |
0.900 (±0.007) |
0.996 (±0.001) |
クラス別の結果(テストセット;異なるシードで5回のラウンドの平均と標準偏差)
クラス |
適合率 |
再現率 |
F1値 |
サポート数 |
年齢 |
0.926 (±0.013) |
0.947 (±0.009) |
0.936 (±0.010) |
372 |
日付 |
0.931 (±0.015) |
0.895 (±0.014) |
0.913 (±0.013) |
412 |
期間 |
0.918 (±0.014) |
0.893 (±0.019) |
0.905 (±0.010) |
629 |
頻度 |
0.780 (±0.043) |
0.885 (±0.008) |
0.829 (±0.024) |
73 |
時間 |
0.722 (±0.068) |
0.809 (±0.042) |
0.762 (±0.052) |
113 |
フレームワークのバージョン
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。