🚀 roberta-es-clinical-trials-umls-7sgs-ner
該醫學命名實體識別模型可從統一醫學語言系統(UMLS) (Bodenreider 2004)中檢測7種語義組,為醫學文本處理提供支持。
🚀 快速開始
本模型可直接用於檢測西班牙語臨床文本中的7種語義組實體。以下是一些示例文本:
- "Criterios de inclusión: 18 a 65 años; necrosis avascular de cadera; sintomática de menos de 6 meses; capaz de otorgar consentimiento informado.
Criterios de exclusión: embarazo, lactancia, mujer fértil sin métodos anticonceptivos adecuados; tratamiento activo con bifosfonatos; infección por VIH, hepatitis B o hepatitis C; historia de neoplasia en cualquier organo."
- "Recuperación de daño hepático relacionado con nutrición parenteral con ácidos omega-3 en adultos críticos: ensayo clínico aleatorizado."
- "Título público: Análisis del dolor tras inyección intramuscular de penicilina con agujas de mayor calibre y anestésico local, frente a aguja tradicional sin anestésico en pacientes con sífilis"
✨ 主要特性
- 多語義組檢測:能夠檢測7種UMLS語義組,包括身體部位(ANAT)、化學物質(CHEM)、醫療設備(DEVI)、病理狀況(DISO)、生物(LIVB)、生理過程(PHYS)和診斷治療程序(PROC)。
- 良好性能表現:在測試集上,模型的準確率達到0.961,F1值為0.886,展現出較好的識別能力。
📚 詳細文檔
模型描述
本模型基於預訓練模型 bsc-bio-ehr-es(Pio Carriño et al. (2022))進行微調,用於對西班牙語臨床試驗文本進行醫學命名實體識別。微調數據來自 CT-EBM-ES語料庫 (Campillos-Llanos et al. 2021)。
如果使用此模型,請按以下方式引用:
@article{campillosetal2024,
title = {{Hybrid tool for semantic annotation and concept extraction of medical texts in Spanish}},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián},
journal = {BMC Bioinformatics},
year={2024},
publisher={BioMed Central}
}
預期用途與限制
⚠️ 重要提示
本模型正在開發中,需要進一步改進。在沒有人工協助和監督的情況下,請勿將其用於醫療決策。
本模型具有通用目的,但可能存在偏差和其他不良扭曲。使用這些模型(或基於這些模型的系統)部署或提供系統和/或服務的第三方應注意,減輕使用風險是他們的責任。無論如何,第三方都需要遵守適用法規,包括有關人工智能使用的法規。模型的所有者或創建者在任何情況下均不對第三方使用這些模型產生的任何結果負責。
訓練和評估數據
用於微調的數據是 西班牙語循證醫學臨床試驗語料庫,它包含1200篇關於臨床試驗研究和臨床試驗公告的文本:
- 500篇來自遵循知識共享許可的期刊摘要,例如可在PubMed或科學電子圖書館在線(SciELO)上獲取的摘要。
- 700篇發表在歐洲臨床試驗註冊中心和西班牙臨床試驗存儲庫中的臨床試驗公告。
如果使用CT-EBM-ES資源,請按以下方式引用:
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
訓練過程
訓練超參數
訓練期間使用了以下超參數:
屬性 |
詳情 |
學習率 |
2e-05 |
訓練批次大小 |
16 |
評估批次大小 |
16 |
隨機種子 |
在5輪評估中使用不同的種子,並上傳結果最佳的模型 |
優化器 |
Adam,β=(0.9, 0.999),ε=1e-08 |
學習率調度器類型 |
線性 |
訓練輪數 |
平均17輪(±2.83);如果5輪後沒有改進則提前停止訓練(提前停止耐心值:5) |
訓練結果(測試集;5輪不同種子的平均值和標準差)
精度 |
召回率 |
F1值 |
準確率 |
0.878 (±0.003) |
0.894 (±0.003) |
0.886 (±0.002) |
0.961 (±0.001) |
各類別結果(測試集;5輪不同種子的平均值和標準差)
類別 |
精度 |
召回率 |
F1值 |
支持度 |
ANAT |
0.728 (±0.030) |
0.686 (±0.030) |
0.706 (±0.025) |
308 |
CHEM |
0.917 (±0.005) |
0.923 (±0.008) |
0.920 (±0.005) |
2932 |
DEVI |
0.645 (±0.018) |
0.791 (±0.047) |
0.711 (±0.027) |
134 |
DISO |
0.890 (±0.008) |
0.903 (±0.003) |
0.896 (±0.003) |
3065 |
LIVB |
0.949 (±0.004) |
0.959 (±0.006) |
0.954 (±0.003) |
1685 |
PHYS |
0.766 (±0.021) |
0.765 (±0.012) |
0.765 (±0.008) |
308 |
PROC |
0.842 (±0.002) |
0.871 (±0.004) |
0.856 (±0.001) |
4154 |
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
📄 許可證
本模型採用CC BY-NC 4.0許可證。