EriBERTa-base開源醫學語言模型 - 免費部署實現醫學文本理解與信息提取

首頁

Eriberta Base

由HiTZ開發

EriBERTa是一個基於海量醫學臨床語料庫預訓練的雙語領域專用語言模型，在臨床領域超越了既往所有西班牙語模型，展現出卓越的醫學文本理解與信息提取能力。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #臨床醫學NLP #雙語醫學模型 #西班牙語醫療

下載量 728

發布時間 : 6/11/2024

模型概述

面向臨床自然語言處理的雙語預訓練語言模型，支持英語和西班牙語，專注於生物醫學和醫療領域的文本理解與信息提取。

模型特點

雙語醫學專業模型

專門針對英語和西班牙語醫學臨床文本進行預訓練，在醫學領域表現優異

跨語言知識遷移

能夠實現英語和西班牙語之間的知識遷移，特別適合西班牙語臨床數據稀缺的場景

大規模醫學語料訓練

基於多語言醫學語料庫（HiTZ/多語言醫學語料庫）進行預訓練，處理了45億token

模型能力

醫學文本理解

臨床信息提取

雙語文本處理

掩碼語言預測

使用案例

臨床文本分析

醫學報告異常檢測

分析醫學報告中的異常情況，如'全身骨骼X光片未檢測到<mask>異常'

能夠準確預測醫學報告中的專業術語

手術記錄分析

理解手術記錄中的專業術語，如'經皮冠狀動脈<mask>手術'

能夠正確預測手術類型和術語

臨床檢查分析

檢查結果解讀

解讀臨床檢查結果，如'無<mask>或角膜炎跡象'

能夠準確預測檢查結果中的專業醫學術語

🚀 EriBERTa

EriBERTa是一個經過預訓練的雙語特定領域語言模型，在大量醫學和臨床語料庫上進行訓練。它在臨床領域的表現優於以往的西班牙語語言模型，展現出強大的醫學文本理解和信息提取能力。此外，EriBERTa還具備出色的遷移學習能力，可實現跨語言的知識遷移，這對於西班牙語臨床數據稀缺的情況尤為有利。

🚀 快速開始

你可以使用以下代碼加載模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("HiTZ/EriBERTa-base")
model = AutoModelForMaskedLM.from_pretrained("HiTZ/EriBERTa-base")

📚 詳細文檔

模型描述

開發者：Iker De la Iglesia、Aitziber Atutxa、Koldo Gojenola和Ander Barrena
聯繫方式：Iker De la Iglesia 和 Ander Barrena
支持語言（NLP）：英語、西班牙語
許可證：apache - 2.0
資助來源：
- 西班牙科學與創新部，MCIN/AEI/ 10.13039/501100011033/FEDER項目：
  - 2022年知識生成項目（EDHIA PID2022 - 136522OB - C22）
  - DOTT - HEALTH/PAT - MED PID2019 - 543106942RB - C31。
  - 歐盟NextGeneration EU/PRTR（DeepR3 TED2021 - 130295B - C31，ANTIDOTE PCI2020 - 120717 - 2歐盟ERA - Net CHIST - ERA）。
- 巴斯克政府：
  - IXA IT1570 - 22。

模型詳情

屬性	詳情
模型參數數量	~1.25億
詞彙表大小	6.4萬
序列長度	512
每步處理的詞元數	200萬
訓練步數	12.5萬
總詞元數	45億
學習率調度器	帶熱身的線性調度器
峰值學習率	2.683e - 4
熱身步數	7500

訓練數據

語言	來源	單詞數
英語	ClinicalTrials	1.274億
英語	EMEA	1200萬
英語	PubMed	9.684億
英語	MIMIC - III	2.06億
西班牙語	EMEA	1360萬
西班牙語	PubMed	840萬
西班牙語	Medical Crawler	9.18億
西班牙語	SPACC	35萬
西班牙語	UFAL	1050萬
西班牙語	WikiMed	520萬

侷限性和偏差

⚠️ 重要提示

EriBERTa目前針對掩碼語言建模進行了優化，用於執行填空任務。雖然已經評估了其在下游任務（如命名實體識別和文本分類）上的微調潛力，但建議在將模型部署到生產環境之前，針對特定應用進行驗證和測試，以確保其有效性和可靠性。由於醫學臨床語料庫的稀缺性，EriBERTa模型是在從多個來源收集的語料庫上進行訓練的，包括網絡爬取的數據。因此，所使用的語料庫可能無法涵蓋臨床語言中所有可能的語言和上下文變化。因此，當模型應用於特定臨床子領域或訓練數據中未充分體現的罕見醫療狀況時，可能會表現出侷限性。

偏差情況

數據收集偏差：EriBERTa的訓練數據來自多個來源，部分使用了網絡爬取技術。這種方法可能會引入與某些類型的內容、觀點和語言使用模式的普遍性相關的偏差。因此，模型可能會在其預測中反映並傳播這些偏差。
人口統計學和語言偏差：由於網絡來源的語料庫可能無法平等地代表所有人口群體或語言細微差別，模型可能對某些人群的表現明顯優於其他人群。這可能導致不同患者群體在臨床數據處理和信息檢索質量上存在差異。
未審查的倫理問題：截至目前，尚未採取全面措施來系統評估EriBERTa中嵌入的倫理影響和偏差。雖然我們致力於解決這些問題，但當前版本的模型可能會無意中延續數據中固有的現有偏差和倫理問題。

免責聲明

⚠️ 重要提示

EriBERTa並非設計或開發用作醫療設備。任何輸出都應由醫療專業人員進行驗證，不得直接用於診斷。模型的輸出可能並不總是完全可靠。由於語言模型的性質，預測可能會出現錯誤或偏差。我們不對該模型的使用承擔任何責任，理想情況下，應在應用前對其進行微調測試。在未經合格專業人員徹底驗證和監督的情況下，不得將其用作醫療工具或用於任何關鍵決策過程。

引用信息

@misc{delaiglesia2023eriberta,
      title={{EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing}}, 
      author={Iker De la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena},
      year={2023},
      eprint={2306.07373},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}