🚀 西班牙語臨床研究命名實體識別模型(roberta-es-clinical-trials-ner)
本醫學命名實體識別模型能夠從統一醫學語言系統(UMLS)(Bodenreider 2004)中檢測4種語義組:
- ANAT:身體部位和解剖結構(例如 garganta,即“喉嚨”)
- CHEM:化學實體和藥理物質(例如 aspirina,即“阿司匹林”)
- DISO:病理狀況(例如 dolor,即“疼痛”)
- PROC:診斷和治療程序、實驗室分析以及醫學研究活動(例如 cirugía,即“手術”)
該模型在評估集上取得了以下成績:
- 損失率:0.1580
- 精確率:0.8495
- 召回率:0.8806
- F1值:0.8647
- 準確率:0.9583
✨ 主要特性
📚 詳細文檔
模型描述
此模型對預訓練模型 bsc-bio-ehr-es 進行了調整,該預訓練模型在 Pio Carriño 等人(2022) 的研究中被提出。它經過微調,可對西班牙語臨床研究文本進行醫學命名實體識別。模型的微調基於 CT-EBM-SP 語料庫(Campillos-Llanos 等人,2021)。
預期用途與限制
⚠️ 重要提示
本模型正在開發中,有待改進。在沒有人工協助和監督的情況下,不得將其用於醫療決策。本模型具有通用用途,但可能存在偏差和/或其他不良扭曲。使用這些模型(或基於這些模型的系統)部署或提供系統和/或服務的第三方應注意,減輕使用風險是他們的責任。無論如何,第三方都需要遵守適用法規,包括有關人工智能使用的法規。模型的所有者或創建者(CSIC - 西班牙科學研究最高理事會)在任何情況下均不對第三方使用這些模型產生的任何結果負責。
訓練和評估數據
用於微調的數據是 西班牙語循證醫學臨床試驗語料庫。它是一個包含1200篇關於臨床試驗研究和臨床試驗公告的文本集合:
- 500篇來自根據知識共享許可發佈的期刊摘要,例如可在 PubMed 或科學電子圖書館在線(SciELO)上獲取的摘要。
- 700篇發表在歐洲臨床試驗註冊中心和西班牙臨床試驗存儲庫中的臨床試驗公告。
如果您使用此資源,請按以下方式引用:
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e-05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:4
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
0.0771 |
1.0 |
785 |
0.1274 |
0.8449 |
0.8797 |
0.8619 |
0.9608 |
0.0415 |
2.0 |
1570 |
0.1356 |
0.8569 |
0.8856 |
0.8710 |
0.9528 |
0.0262 |
3.0 |
2355 |
0.1562 |
0.8619 |
0.8798 |
0.8707 |
0.9526 |
0.0186 |
4.0 |
3140 |
0.1582 |
0.8609 |
0.8846 |
0.8726 |
0.9527 |
各類別結果(測試集)
類別 |
精確率 |
召回率 |
F1值 |
樣本數 |
ANAT |
0.7069 |
0.6518 |
0.6783 |
359 |
CHEM |
0.9162 |
0.9228 |
0.9195 |
2929 |
DISO |
0.8805 |
0.8918 |
0.8861 |
3042 |
PROC |
0.8198 |
0.8720 |
0.8450 |
3954 |
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
環境影響
碳排放使用 Lacoste 等人(2019) 的 機器學習影響計算器 進行估算。通過指定硬件、運行時間、雲服務提供商和計算區域來估算碳影響。
- 硬件類型:1個24GB RTX 3090 GPU
- 使用時間:4分鐘(0.07小時)
- 計算區域:歐洲,西班牙
- 碳排放(功耗 x 時間 x 基於電網位置產生的碳):0.01千克二氧化碳當量
(碳補償:0)
資金支持
該模型使用了 NLPMedTerm 項目 的標註數據集創建,該項目由 InterTalentum UAM、瑪麗·居里行動 COFUND 資助(2019 - 2021)(H2020 計劃,合同編號 713366)以及馬德里自治大學知識工程研究所(IIC - UAM)的計算語言學講座資助。
感謝馬德里自治大學(Universidad Autónoma de Madrid)的 計算語言學實驗室(LLI) 提供用於微調模型的計算設施。
📄 許可證
署名 - 非商業性使用 4.0 國際許可協議(CC BY 4.0)