🚀 RigoBERTa Clinical
RigoBERTa Clinical 是一款用於西班牙語的先進臨床編碼器語言模型,它通過在最大的公開可用西班牙語臨床語料庫 ClinText - SP 上進行領域自適應預訓練而開發。該模型顯著提升了多個臨床自然語言處理基準測試的性能,同時在臨床領域提供了強大的語言理解能力。
🚀 快速開始
RigoBERTa Clinical 專為西班牙語臨床文本理解而設計,可應用於醫療保健自然語言處理任務,如臨床筆記分類、臨床文本中的實體識別等相關下游任務,也可用於研究和開發目的,包括基準測試和進一步的模型適配。
✨ 主要特性
- 領域適配:通過在大規模西班牙語臨床語料庫上進行預訓練,能更好地適應臨床領域的語言特點。
- 性能提升:在多個臨床自然語言處理基準測試中顯著提高了性能。
- 語言理解:在臨床領域提供強大的語言理解能力。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
RigoBERTa Clinical 是在通用的 RigoBERTa 2 基礎上,進一步在精心策劃的臨床語料庫上進行預訓練而構建的。預訓練採用掩碼語言模型(MLM),使模型的語言知識適應西班牙語臨床領域。
屬性 |
詳情 |
開發者 |
IIC |
模型類型 |
編碼器 |
語言(NLP) |
西班牙語 |
許可證 |
rigoclinical - nc(寬鬆的非商業許可) |
微調基礎模型 |
RigoBERTa 2 |
模型來源
預期用途與侷限性
預期用途
- 西班牙語臨床文本理解。
- 醫療保健自然語言處理任務的應用,如臨床筆記分類、臨床文本中的實體識別及相關下游任務。
- 研究和開發目的,包括基準測試和進一步的模型適配。
侷限性與注意事項
- 領域特異性:儘管該模型對西班牙語臨床文本非常有效,但可能無法推廣到其他領域或語言。
- 數據偏差:ClinText - SP 雖然是可用的最大語料庫,但由於來源選擇和公共臨床數據的固有侷限性,可能存在偏差。
- 運營成本:儘管與生成式大語言模型相比,基於編碼器的模型計算成本相對較低,但在資源受限的環境中部署時仍需仔細評估。
訓練詳情
訓練數據:ClinText - SP
ClinText - SP 是最大的開放西班牙語臨床語料庫,包含來自各種開放源的數據:
- 規模:約 2600 萬個標記,35996 個樣本
- 樣本詳情:每個樣本平均約 700 個標記;包含長篇臨床病例和較短的示意圖文本
- 來源:醫學期刊、臨床共享任務、放射學報告和維基百科摘錄
- 可用性:[ClinText - SP](https://huggingface.co/datasets/IIC/ClinText - SP) 於 Hugging Face Datasets
訓練過程
預處理
- 分詞器:使用 RigoBERTa 2 的分詞器,以確保與基礎模型的一致性。
- 長序列處理:超過 512 個標記的臨床文本以 128 個標記的步長進行分割;必要時對較短序列進行填充。
- 未登錄詞處理:使用子詞分詞處理未登錄詞,保持對臨床術語的強大處理能力。
訓練詳情
- 目標:掩碼語言模型(MLM)
- 輪數:2 個完整輪次(根據下游性能,在約 1.8 輪後選擇最佳模型)
- 超參數網格:
- 批次大小:32、64、128
- 學習率:批次大小為 32 時為 {5e - 6, 1e - 5, 2e - 5};批次大小為 64 時為 {1e - 5, 2e - 5, 4e - 5};批次大小為 128 時為 {1e - 5, 4e - 5, 8e - 5}
- 最佳設置:批次大小 = 32,學習率 = 2e - 5,約 2800 個訓練步驟(約 1.8 輪)
- 優化器:AdamW,權重衰減為 0.1
- 硬件:在單個 NVIDIA A100 GPU(80GB 內存)上訓練
評估
RigoBERTa Clinical 在多個西班牙語臨床自然語言處理任務上進行了評估,包括命名實體識別(NER)和多標籤分類。評估指標(F1 分數和微平均 F1)表明,該模型優於以前的臨床和通用西班牙語語言模型。
- 關鍵結果:
- 在 cantemist、meddocan 和 livingner1 等數據集上取得了最佳性能。
- 始終超越僅在臨床數據上訓練的模型,證明了在領域適配過程中利用通用領域知識的優勢。
- 相關出版物中提供了詳細的基準測試結果和比較。
如需完整的結果明細(包括在多語言基線和其他特定臨床模型上的性能),請參考原文中的表 1 和 Nemenyi 圖。

引用
如果您在研究中使用了 RigoBERTa Clinical,請引用相關論文:
BibTeX:
@misc{subies2025clintextsprigobertaclinicalnew,
title={ClinText - SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP},
author={Guillem García Subies and Álvaro Barbero Jiménez and Paloma Martínez Fernández},
year={2025},
eprint={2503.18594},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.18594},
}
APA:
Subies, G. G., Barbero Jiménez, Á., & Martínez Fernández, P. (2025). ClinText - SP and RigoBERTa Clinical: A new set of open resources for Spanish Clinical NLP. arXiv. https://arxiv.org/abs/2503.18594
模型卡片作者與聯繫方式
Guillem García Subies:guillem.garcia@iic.uam.es,100500844@alumnos.uc3m.es
📄 許可證
本模型使用的許可證為 rigoclinical - nc(寬鬆的非商業許可),詳情請見 [許可證鏈接](https://huggingface.co/IIC/RigoBERTa - Clinical/blob/main/LICENSE)。