🚀 CLIN-X-ES:用於西班牙臨床領域的預訓練語言模型
CLIN-X-ES是專門為西班牙臨床領域設計的預訓練語言模型,能夠有效處理該領域的相關任務,為臨床研究和實踐提供有力支持。
🚀 快速開始
有關該模型、預訓練語料庫以及下游任務性能的詳細信息,請參考論文:"CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain",作者為Lukas Lange、Heike Adel、Jannik Strötgen和Dietrich Klakow。論文鏈接:here。如有疑問,請聯繫論文中列出的作者。
在報告、復現或擴展研究結果時,請引用上述論文:
@misc{lange-etal-2021-clin-x,
author = {Lukas Lange and
Heike Adel and
Jannik Str{\"{o}}tgen and
Dietrich Klakow},
title = {CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain},
year={2021},
eprint={2112.08754},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2112.08754}
}
✨ 主要特性
- 基於多語言模型:該模型基於多語言的XLM - R變壓器
(xlm - roberta - large)
構建,該模型在100種語言上進行了訓練,在跨語言的許多不同任務中表現出色,甚至在某些情況下可以超越單語言模型。
- 針對西班牙臨床領域優化:通過從Scielo檔案(https://scielo.org/)和MeSpEn資源(Villegas等人,2018)中採樣文檔,構建了特定於西班牙臨床領域的790MB語料庫,並在該語料庫上對模型進行微調。
- 跨語言能力:由於基於XLM - R,模型仍然具有多語言能力,可應用於不同語言的臨床概念提取任務。
🔧 技術細節
模型基礎
模型基於多語言XLM - R變壓器(xlm - roberta - large)
,該模型在100種語言上進行了訓練,在跨語言的許多不同任務中表現卓越,甚至在某些設置中能超越單語言模型(Conneau等人,2020)。儘管XLM - R在53GB的西班牙文檔上進行了預訓練,但這僅佔總體訓練數據的2%。
語料庫構建
為了使模型更適用於西班牙臨床領域,我們從Scielo檔案(https://scielo.org/)和MeSpEn資源(Villegas等人,2018)中採樣文檔,最終得到的語料庫大小為790MB,高度特定於臨床領域。
模型訓練
使用預訓練的XLM - R權重初始化CLIN - X,並在西班牙臨床語料庫上進行3個epoch(約32k步)的掩碼語言模型(MLM)訓練,使研究人員和從業者能夠使用現成的定製模型處理西班牙臨床領域的任務。
📚 詳細文檔
西班牙概念提取結果
我們將CLIN - X - ES應用於臨床領域的五個西班牙概念提取任務,採用類似於Devlin等人(2019)的標準序列標註架構,並與名為BETO的西班牙BERT模型進行比較。此外,我們還按照上述鏈接論文中描述的改進架構(+ OurArchitecture)
進行了實驗。我們模型架構的代碼可在here找到。
模型 |
Cantemist |
Meddocan |
Meddoprof (NER) |
Meddoprof (CLASS) |
Pharmaconer |
BETO (西班牙BERT) |
81.30 |
96.81 |
79.19 |
74.59 |
87.70 |
CLIN - X (ES) |
83.22 |
97.08 |
79.54 |
76.95 |
90.05 |
CLIN - X (ES) + OurArchitecture |
88.24 |
98.00 |
81.68 |
80.54 |
92.27 |
英語概念提取結果
由於CLIN - X - ES模型基於XLM - R,因此它仍然是多語言的。我們通過將該模型應用於i2b2的五個不同英語序列標註任務,證明了跨語言領域適應的積極影響。我們發現,在這種跨語言設置中,來自相關概念提取的進一步遷移特別有幫助。有關遷移過程和所有其他模型的詳細描述,請參考我們的論文。
模型 |
i2b2 2006 |
i2b2 2010 |
i2b2 2012 (Concept) |
i2b2 2012 (Time) |
i2b2 2014 |
BERT |
94.80 |
85.25 |
76.51 |
75.28 |
94.86 |
ClinicalBERT |
94.8 |
87.8 |
78.9 |
76.6 |
93.0 |
CLIN - X (ES) |
95.49 |
87.94 |
79.58 |
77.57 |
96.80 |
CLIN - X (ES) + OurArchitecture |
98.30 |
89.10 |
80.42 |
78.48 |
97.62 |
CLIN - X (ES) + OurArchitecture + Transfer |
89.50 |
89.74 |
80.93 |
79.60 |
97.46 |
📄 許可證
CLIN - X模型根據CC - BY 4.0許可證進行開源。詳情請參閱LICENSE文件。
⚠️ 重要提示
本軟件是一個研究原型,僅為上述引用的出版物而開發和發佈,不會以任何方式進行維護或監控。