bsc-bio-ehr-es開源語言模型 - 助力西班牙語生物醫學與臨床NLP任務

首頁

Bsc Bio Ehr Es

由PlanTL-GOB-ES開發

針對西班牙語生物醫學和臨床文本優化的預訓練語言模型，支持臨床NLP任務

大型語言模型

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語臨床文本 #生物醫學實體識別 #電子健康記錄處理

下載量 624

發布時間 : 4/8/2022

模型概述

基於RoBERTa架構的西班牙語生物醫學領域專用模型，在混合生物醫學語料和真實臨床記錄上訓練，適用於臨床文本分析任務

模型特點

專業領域優化

在10億token的生物醫學-臨床混合語料上訓練，包含27.8萬份真實臨床文檔

多源數據整合

整合醫學爬蟲、臨床病例、電子健康記錄等11種專業數據源

臨床NER優勢

在PharmaCoNER、CANTEMIST等臨床NER任務上超越通用和多語言模型

模型能力

生物醫學文本理解

臨床實體識別

電子健康記錄分析

醫學文本分類

使用案例

臨床信息提取

藥物名稱識別

從臨床文本中識別化學藥物提及

在PharmaCoNER任務達到0.8913 F1分數

腫瘤形態學識別

識別西班牙語腫瘤學術語

在CANTEMIST任務達到0.8340 F1分數

電子健康記錄處理

出院報告分析

解析卒中患者出院報告中的臨床變量

在ICTUSnet數據集達到0.8756 F1分數

🚀 用於西班牙語的生物醫學臨床語言模型

本項目是一個專為西班牙語設計的生物醫學預訓練語言模型，可用於掩碼語言建模任務，也可在下游任務中進行微調，為生物醫學領域的自然語言處理提供有力支持。

🚀 快速開始

本模型可直接用於掩碼語言建模以執行填充掩碼任務，你可以嘗試推理API或參考後續章節。同時，它也可在諸如命名實體識別或文本分類等下游任務中進行微調。

✨ 主要特性

特定領域適配：專為西班牙語生物醫學和臨床領域設計，能更好地處理該領域的專業文本。
多任務支持：既可以直接用於填充掩碼任務，也能在下游任務中進行微調。
性能優越：在多個命名實體識別任務中，與其他模型相比取得了更優的F1分數。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

💻 使用示例

文檔未提供代碼示例，暫無法展示。

📚 詳細文檔

模型描述

這是一個用於西班牙語的生物醫學預訓練語言模型。有關語料庫、預訓練和評估的更多詳細信息，請查看官方倉庫。

預期用途和限制

該模型僅適用於掩碼語言建模以執行填充掩碼任務（你可以嘗試推理API或閱讀下一部分）。不過，它旨在在下游任務（如命名實體識別或文本分類）中進行微調。

侷限性和偏差

在提交時，尚未採取措施來估計模型中嵌入的偏差。然而，我們深知由於語料庫是通過在多個網絡源上使用爬蟲技術收集的，我們的模型可能存在偏差。我們打算在未來對這些領域進行研究，如果完成研究，此模型卡片將進行更新。

🔧 技術細節

分詞和模型預訓練

該模型是一個基於 RoBERTa 的模型，在從多個來源收集的西班牙語 生物醫學臨床 語料庫上進行訓練（見下一節）。訓練語料庫使用了原始 RoBERTa 模型中使用的字節版本的字節對編碼 (BPE) 進行分詞，詞彙量大小為52,000個標記。預訓練包括在子詞級別進行掩碼語言模型訓練，採用了與 RoBERTa 基礎模型相同的方法和超參數。訓練總共持續了48小時，使用了16個16GB DDRAM的NVIDIA V100 GPU，採用Adam優化器，峰值學習率為0.0005，有效批量大小為2,048個句子。

訓練語料庫和預處理

訓練語料庫由幾個西班牙語生物醫學語料庫組成，這些語料庫從公開可用的語料庫和爬蟲中收集，以及一個從超過278K個臨床文檔和筆記中收集的真實臨床語料庫。為了獲得高質量的訓練語料庫，同時保留臨床語言的特點，僅對生物醫學語料庫應用了清理流程，而臨床語料庫保持未清理狀態。本質上，使用的清理操作包括：

不同格式的數據解析
- 句子分割
- 語言檢測
- 過濾格式錯誤的句子
- 去重重複內容
- 保留原始文檔邊界

然後，將生物醫學語料庫連接起來，並對生物醫學語料庫進行進一步的全局去重。最終，將臨床語料庫連接到清理後的生物醫學語料庫，形成一個由超過10億個標記組成的中等規模的西班牙語生物醫學臨床語料庫。下表顯示了各個清理後語料庫的一些基本統計信息：

名稱	標記數量	描述
醫學爬蟲	903,558,13	對屬於西班牙語生物醫學和健康領域的3000多個URL進行的爬蟲。
臨床病例雜項	102,855,267	各種醫學內容，主要是臨床病例。請注意，臨床病例報告是醫學從業者分享患者病例的科學出版物，它與臨床筆記或文檔不同。
電子健康記錄 (EHR) 文檔	95,267,20	收集了超過278K個臨床文檔，包括出院報告、臨床病程記錄和X光報告，總共9100萬個標記。
Scielo	60,007,289	2017年從西班牙語SciELO服務器爬取的西班牙語出版物。
BARR2_背景	24,516,442	生物醫學縮寫識別和解析 (BARR2)，包含來自各種臨床學科的西班牙語臨床病例研究部分。
維基百科生命科學	13,890,501	2021年1月4日使用維基百科API Python庫從 “Ciencias_de_la_vida” 類別開始爬取的維基百科文章，最多爬取5個子類別。然後丟棄指向同一文章的多個鏈接以避免重複內容。
專利	13,463,387	西班牙醫學領域的谷歌專利（西班牙語）。專利JSON文件接受的代碼（醫學領域）為："A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。
EMEA	5,377,448	從歐洲藥品管理局的PDF文檔組成的平行語料庫中提取的西班牙語文檔。
mespen_Medline	4,166,077	從一個由生物醫學科學文獻組成的西班牙語 - 英語平行語料庫中提取的西班牙語文章。該平行資源集合來自MedlinePlus源。
PubMed	1,858,966	2017年從PubMed存儲庫爬取的開放獲取文章。

評估

該模型在三個命名實體識別 (NER) 任務上進行了微調，使用了三個臨床NER數據集：

PharmaCoNER：是一個從西班牙語醫學文本中識別化學和藥物提及的任務（更多信息請見：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務（更多信息請見：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由來自18家不同西班牙醫院的1006份中風患者出院報告組成。它包含超過79,000個註釋，涉及51種不同類型的變量。

我們將NER任務作為一個標記分類問題，使用標準線性層和BIO標記方案來解決。我們將我們的模型與通用領域的西班牙語 roberta-base-bne、支持西班牙語的通用領域多語言模型 mBERT、特定領域的英語模型 BioBERT 以及三個基於持續預訓練的特定領域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 進行了比較。下表顯示了獲得的F1分數：

任務/模型	bsc-bio-ehr-es	XLM-R-Galén	BETO-Galén	mBERT-Galén	mBERT	BioBERT	roberta-base-bne
PharmaCoNER	0.8913	0.8754	0.8537	0.8594	0.8671	0.8545	0.8474
CANTEMIST	0.8340	0.8078	0.8153	0.8168	0.8116	0.8070	0.7875
ICTUSnet	0.8756	0.8716	0.8498	0.8509	0.8631	0.8521	0.8677

微調腳本可以在官方GitHub 倉庫中找到。

📄 許可證

本項目採用 Apache許可證2.0版。

作者

巴塞羅那超級計算中心的文本挖掘單元 (TeMU) (bsc-temu@bsc.es)

聯繫信息

如需更多信息，請發送電子郵件至 plantl-gob-es@bsc.es

版權

版權歸西班牙數字化與人工智能國務秘書處 (SEDIA) 所有 (2022)

資金支持

這項工作由西班牙數字化與人工智能國務秘書處 (SEDIA) 在Plan - TL框架內資助。

引用信息

如果您使用這些模型，請引用我們的工作：

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}