🚀 EriBERTa
EriBERTa是一個經過預訓練的雙語特定領域語言模型,在大量醫學和臨床語料庫上進行訓練。它在臨床領域的表現優於以往的西班牙語語言模型,展現出強大的醫學文本理解和信息提取能力。此外,EriBERTa還具備出色的遷移學習能力,可實現跨語言的知識遷移,這對於西班牙語臨床數據稀缺的情況尤為有利。
🚀 快速開始
你可以使用以下代碼加載模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("HiTZ/EriBERTa-base")
model = AutoModelForMaskedLM.from_pretrained("HiTZ/EriBERTa-base")
📚 詳細文檔
模型描述
- 開發者:Iker De la Iglesia、Aitziber Atutxa、Koldo Gojenola和Ander Barrena
- 聯繫方式:Iker De la Iglesia 和 Ander Barrena
- 支持語言(NLP):英語、西班牙語
- 許可證:apache - 2.0
- 資助來源:
- 西班牙科學與創新部,MCIN/AEI/ 10.13039/501100011033/FEDER項目:
- 2022年知識生成項目(EDHIA PID2022 - 136522OB - C22)
- DOTT - HEALTH/PAT - MED PID2019 - 543106942RB - C31。
- 歐盟NextGeneration EU/PRTR(DeepR3 TED2021 - 130295B - C31,ANTIDOTE PCI2020 - 120717 - 2歐盟ERA - Net CHIST - ERA)。
- 巴斯克政府:
模型詳情
屬性 |
詳情 |
模型參數數量 |
~1.25億 |
詞彙表大小 |
6.4萬 |
序列長度 |
512 |
每步處理的詞元數 |
200萬 |
訓練步數 |
12.5萬 |
總詞元數 |
45億 |
學習率調度器 |
帶熱身的線性調度器 |
峰值學習率 |
2.683e - 4 |
熱身步數 |
7500 |
訓練數據
語言 |
來源 |
單詞數 |
英語 |
ClinicalTrials |
1.274億 |
英語 |
EMEA |
1200萬 |
英語 |
PubMed |
9.684億 |
英語 |
MIMIC - III |
2.06億 |
西班牙語 |
EMEA |
1360萬 |
西班牙語 |
PubMed |
840萬 |
西班牙語 |
Medical Crawler |
9.18億 |
西班牙語 |
SPACC |
35萬 |
西班牙語 |
UFAL |
1050萬 |
西班牙語 |
WikiMed |
520萬 |
侷限性和偏差
⚠️ 重要提示
EriBERTa目前針對掩碼語言建模進行了優化,用於執行填空任務。雖然已經評估了其在下游任務(如命名實體識別和文本分類)上的微調潛力,但建議在將模型部署到生產環境之前,針對特定應用進行驗證和測試,以確保其有效性和可靠性。由於醫學臨床語料庫的稀缺性,EriBERTa模型是在從多個來源收集的語料庫上進行訓練的,包括網絡爬取的數據。因此,所使用的語料庫可能無法涵蓋臨床語言中所有可能的語言和上下文變化。因此,當模型應用於特定臨床子領域或訓練數據中未充分體現的罕見醫療狀況時,可能會表現出侷限性。
偏差情況
- 數據收集偏差:EriBERTa的訓練數據來自多個來源,部分使用了網絡爬取技術。這種方法可能會引入與某些類型的內容、觀點和語言使用模式的普遍性相關的偏差。因此,模型可能會在其預測中反映並傳播這些偏差。
- 人口統計學和語言偏差:由於網絡來源的語料庫可能無法平等地代表所有人口群體或語言細微差別,模型可能對某些人群的表現明顯優於其他人群。這可能導致不同患者群體在臨床數據處理和信息檢索質量上存在差異。
- 未審查的倫理問題:截至目前,尚未採取全面措施來系統評估EriBERTa中嵌入的倫理影響和偏差。雖然我們致力於解決這些問題,但當前版本的模型可能會無意中延續數據中固有的現有偏差和倫理問題。
免責聲明
⚠️ 重要提示
EriBERTa並非設計或開發用作醫療設備。任何輸出都應由醫療專業人員進行驗證,不得直接用於診斷。模型的輸出可能並不總是完全可靠。由於語言模型的性質,預測可能會出現錯誤或偏差。我們不對該模型的使用承擔任何責任,理想情況下,應在應用前對其進行微調測試。在未經合格專業人員徹底驗證和監督的情況下,不得將其用作醫療工具或用於任何關鍵決策過程。
引用信息
@misc{delaiglesia2023eriberta,
title={{EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing}},
author={Iker De la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena},
year={2023},
eprint={2306.07373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
論文鏈接