🚀 CLIN-X-ES: スペイン語臨床ドメイン向け事前学習言語モデル
CLIN-X-ESは、スペイン語の臨床ドメインに特化した事前学習言語モデルで、臨床概念抽出タスクで優れた性能を発揮します。
🚀 クイックスタート
モデル、事前学習コーパス、下流タスクの性能に関する詳細は、Lukas Lange、Heike Adel、Jannik Strötgen、Dietrich Klakowによる論文「CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain」に記載されています。
この論文はこちらから入手できます。
質問がある場合は、論文に記載されている著者にご連絡ください。
結果を報告、再現、または拡張する際には、上記の論文を引用してください。
@misc{lange-etal-2021-clin-x,
author = {Lukas Lange and
Heike Adel and
Jannik Str{\"{o}}tgen and
Dietrich Klakow},
title = {CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain},
year={2021},
eprint={2112.08754},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2112.08754}
}
🔧 技術詳細
このモデルは、100言語で学習され、多言語間の様々なタスクで優れた性能を示し、特定の設定では単言語モデルを上回ることもある多言語XLM - Rトランスフォーマー(xlm - roberta - large)
に基づいています(Conneau et al. 2020)。
XLM - Rは53GBのスペイン語ドキュメントで事前学習されましたが、これは全体の学習データのわずか2%に過ぎません。このモデルをスペイン語臨床ドメインに適合させるために、Scieloアーカイブ(https://scielo.org/)とMeSpEnリソース(Villegas et al. 2018)からドキュメントをサンプリングしました。結果として得られたコーパスのサイズは790MBで、臨床ドメインに特化しています。
CLIN - Xを事前学習されたXLM - Rの重みで初期化し、スペイン語臨床コーパスでマスク言語モデリング(MLM)を3エポック(およそ32kステップ)学習します。これにより、研究者や実務者は即座に使用できる特化モデルでスペイン語臨床ドメインに対応することができます。
📚 ドキュメント
スペイン語概念抽出の結果
CLIN - X - ESを、Devlin et al. 2019と同様の標準的なシーケンスラベリングアーキテクチャで、臨床ドメインの5つのスペイン語概念抽出タスクに適用し、BETOと呼ばれるスペイン語BERTモデルと比較します。さらに、上記の論文に記載されている改善されたアーキテクチャ(+ OurArchitecture)
で実験を行います。当社のモデルアーキテクチャのコードはこちらから入手できます。
|
Cantemist |
Meddocan |
Meddoprof (NER) |
Meddoprof (CLASS) |
Pharmaconer |
BETO (スペイン語BERT) |
81.30 |
96.81 |
79.19 |
74.59 |
87.70 |
CLIN - X (ES) |
83.22 |
97.08 |
79.54 |
76.95 |
90.05 |
CLIN - X (ES) + OurArchitecture |
88.24 |
98.00 |
81.68 |
80.54 |
92.27 |
英語概念抽出の結果
CLIN - X - ESモデルはXLM - Rに基づいているため、多言語対応です。このモデルをi2b2の5つの異なる英語シーケンスラベリングタスクに適用することで、異言語ドメイン適応のポジティブな影響を実証します。
関連する概念抽出からのさらなる転移学習は、この異言語設定で特に有効であることがわかりました。転移学習のプロセスや他のモデルの詳細については、当社の論文を参照してください。
|
i2b2 2006 |
i2b2 2010 |
i2b2 2012 (Concept) |
i2b2 2012 (Time) |
i2b2 2014 |
BERT |
94.80 |
85.25 |
76.51 |
75.28 |
94.86 |
ClinicalBERT |
94.8 |
87.8 |
78.9 |
76.6 |
93.0 |
CLIN - X (ES) |
95.49 |
87.94 |
79.58 |
77.57 |
96.80 |
CLIN - X (ES) + OurArchitecture |
98.30 |
89.10 |
80.42 |
78.48 |
97.62 |
CLIN - X (ES) + OurArchitecture + Transfer |
89.50 |
89.74 |
80.93 |
79.60 |
97.46 |
📄 ライセンス
このソフトウェアは研究用のプロトタイプであり、上記の出版物の一部としてのみ開発および公開されています。これは一切の形でメンテナンスや監視は行われません。
CLIN - XモデルはCC - BY 4.0ライセンスの下でオープンソース化されています。
詳細についてはLICENSEファイルを参照してください。