🚀 CLIN-X-ES:用于西班牙临床领域的预训练语言模型
CLIN-X-ES是专门为西班牙临床领域设计的预训练语言模型,能够有效处理该领域的相关任务,为临床研究和实践提供有力支持。
🚀 快速开始
有关该模型、预训练语料库以及下游任务性能的详细信息,请参考论文:"CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain",作者为Lukas Lange、Heike Adel、Jannik Strötgen和Dietrich Klakow。论文链接:here。如有疑问,请联系论文中列出的作者。
在报告、复现或扩展研究结果时,请引用上述论文:
@misc{lange-etal-2021-clin-x,
author = {Lukas Lange and
Heike Adel and
Jannik Str{\"{o}}tgen and
Dietrich Klakow},
title = {CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain},
year={2021},
eprint={2112.08754},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2112.08754}
}
✨ 主要特性
- 基于多语言模型:该模型基于多语言的XLM - R变压器
(xlm - roberta - large)
构建,该模型在100种语言上进行了训练,在跨语言的许多不同任务中表现出色,甚至在某些情况下可以超越单语言模型。
- 针对西班牙临床领域优化:通过从Scielo档案(https://scielo.org/)和MeSpEn资源(Villegas等人,2018)中采样文档,构建了特定于西班牙临床领域的790MB语料库,并在该语料库上对模型进行微调。
- 跨语言能力:由于基于XLM - R,模型仍然具有多语言能力,可应用于不同语言的临床概念提取任务。
🔧 技术细节
模型基础
模型基于多语言XLM - R变压器(xlm - roberta - large)
,该模型在100种语言上进行了训练,在跨语言的许多不同任务中表现卓越,甚至在某些设置中能超越单语言模型(Conneau等人,2020)。尽管XLM - R在53GB的西班牙文档上进行了预训练,但这仅占总体训练数据的2%。
语料库构建
为了使模型更适用于西班牙临床领域,我们从Scielo档案(https://scielo.org/)和MeSpEn资源(Villegas等人,2018)中采样文档,最终得到的语料库大小为790MB,高度特定于临床领域。
模型训练
使用预训练的XLM - R权重初始化CLIN - X,并在西班牙临床语料库上进行3个epoch(约32k步)的掩码语言模型(MLM)训练,使研究人员和从业者能够使用现成的定制模型处理西班牙临床领域的任务。
📚 详细文档
西班牙概念提取结果
我们将CLIN - X - ES应用于临床领域的五个西班牙概念提取任务,采用类似于Devlin等人(2019)的标准序列标注架构,并与名为BETO的西班牙BERT模型进行比较。此外,我们还按照上述链接论文中描述的改进架构(+ OurArchitecture)
进行了实验。我们模型架构的代码可在here找到。
模型 |
Cantemist |
Meddocan |
Meddoprof (NER) |
Meddoprof (CLASS) |
Pharmaconer |
BETO (西班牙BERT) |
81.30 |
96.81 |
79.19 |
74.59 |
87.70 |
CLIN - X (ES) |
83.22 |
97.08 |
79.54 |
76.95 |
90.05 |
CLIN - X (ES) + OurArchitecture |
88.24 |
98.00 |
81.68 |
80.54 |
92.27 |
英语概念提取结果
由于CLIN - X - ES模型基于XLM - R,因此它仍然是多语言的。我们通过将该模型应用于i2b2的五个不同英语序列标注任务,证明了跨语言领域适应的积极影响。我们发现,在这种跨语言设置中,来自相关概念提取的进一步迁移特别有帮助。有关迁移过程和所有其他模型的详细描述,请参考我们的论文。
模型 |
i2b2 2006 |
i2b2 2010 |
i2b2 2012 (Concept) |
i2b2 2012 (Time) |
i2b2 2014 |
BERT |
94.80 |
85.25 |
76.51 |
75.28 |
94.86 |
ClinicalBERT |
94.8 |
87.8 |
78.9 |
76.6 |
93.0 |
CLIN - X (ES) |
95.49 |
87.94 |
79.58 |
77.57 |
96.80 |
CLIN - X (ES) + OurArchitecture |
98.30 |
89.10 |
80.42 |
78.48 |
97.62 |
CLIN - X (ES) + OurArchitecture + Transfer |
89.50 |
89.74 |
80.93 |
79.60 |
97.46 |
📄 许可证
CLIN - X模型根据CC - BY 4.0许可证进行开源。详情请参阅LICENSE文件。
⚠️ 重要提示
本软件是一个研究原型,仅为上述引用的出版物而开发和发布,不会以任何方式进行维护或监控。