Bsc Bio Ehr Es
模型概述
模型特點
模型能力
使用案例
🚀 用於西班牙語的生物醫學臨床語言模型
本項目是一個專為西班牙語設計的生物醫學預訓練語言模型,可用於掩碼語言建模任務,也可在下游任務中進行微調,為生物醫學領域的自然語言處理提供有力支持。
🚀 快速開始
本模型可直接用於掩碼語言建模以執行填充掩碼任務,你可以嘗試推理API或參考後續章節。同時,它也可在諸如命名實體識別或文本分類等下游任務中進行微調。
✨ 主要特性
- 特定領域適配:專為西班牙語生物醫學和臨床領域設計,能更好地處理該領域的專業文本。
- 多任務支持:既可以直接用於填充掩碼任務,也能在下游任務中進行微調。
- 性能優越:在多個命名實體識別任務中,與其他模型相比取得了更優的F1分數。
📦 安裝指南
文檔未提及具體安裝步驟,暫無法提供。
💻 使用示例
文檔未提供代碼示例,暫無法展示。
📚 詳細文檔
模型描述
這是一個用於西班牙語的生物醫學預訓練語言模型。有關語料庫、預訓練和評估的更多詳細信息,請查看官方 倉庫。
預期用途和限制
該模型僅適用於掩碼語言建模以執行填充掩碼任務(你可以嘗試推理API或閱讀下一部分)。不過,它旨在在下游任務(如命名實體識別或文本分類)中進行微調。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上使用爬蟲技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成研究,此模型卡片將進行更新。
🔧 技術細節
分詞和模型預訓練
該模型是一個基於 RoBERTa 的模型,在從多個來源收集的西班牙語 生物醫學臨床 語料庫上進行訓練(見下一節)。訓練語料庫使用了原始 RoBERTa 模型中使用的字節版本的 字節對編碼 (BPE) 進行分詞,詞彙量大小為52,000個標記。預訓練包括在子詞級別進行掩碼語言模型訓練,採用了與 RoBERTa 基礎模型相同的方法和超參數。訓練總共持續了48小時,使用了16個16GB DDRAM的NVIDIA V100 GPU,採用Adam優化器,峰值學習率為0.0005,有效批量大小為2,048個句子。
訓練語料庫和預處理
訓練語料庫由幾個西班牙語生物醫學語料庫組成,這些語料庫從公開可用的語料庫和爬蟲中收集,以及一個從超過278K個臨床文檔和筆記中收集的真實臨床語料庫。為了獲得高質量的訓練語料庫,同時保留臨床語言的特點,僅對生物醫學語料庫應用了清理流程,而臨床語料庫保持未清理狀態。本質上,使用的清理操作包括:
- 不同格式的數據解析
- 句子分割
- 語言檢測
- 過濾格式錯誤的句子
- 去重重複內容
- 保留原始文檔邊界
然後,將生物醫學語料庫連接起來,並對生物醫學語料庫進行進一步的全局去重。最終,將臨床語料庫連接到清理後的生物醫學語料庫,形成一個由超過10億個標記組成的中等規模的西班牙語生物醫學臨床語料庫。下表顯示了各個清理後語料庫的一些基本統計信息:
名稱 | 標記數量 | 描述 |
---|---|---|
醫學爬蟲 | 903,558,13 | 對屬於西班牙語生物醫學和健康領域的3000多個URL進行的爬蟲。 |
臨床病例雜項 | 102,855,267 | 各種醫學內容,主要是臨床病例。請注意,臨床病例報告是醫學從業者分享患者病例的科學出版物,它與臨床筆記或文檔不同。 |
電子健康記錄 (EHR) 文檔 | 95,267,20 | 收集了超過278K個臨床文檔,包括出院報告、臨床病程記錄和X光報告,總共9100萬個標記。 |
Scielo | 60,007,289 | 2017年從西班牙語SciELO服務器爬取的西班牙語出版物。 |
BARR2_背景 | 24,516,442 | 生物醫學縮寫識別和解析 (BARR2),包含來自各種臨床學科的西班牙語臨床病例研究部分。 |
維基百科生命科學 | 13,890,501 | 2021年1月4日使用 維基百科API Python庫 從 “Ciencias_de_la_vida” 類別開始爬取的維基百科文章,最多爬取5個子類別。然後丟棄指向同一文章的多個鏈接以避免重複內容。 |
專利 | 13,463,387 | 西班牙醫學領域的谷歌專利(西班牙語)。專利JSON文件接受的代碼(醫學領域)為:"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。 |
EMEA | 5,377,448 | 從歐洲藥品管理局的PDF文檔組成的平行語料庫中提取的西班牙語文檔。 |
mespen_Medline | 4,166,077 | 從一個由生物醫學科學文獻組成的西班牙語 - 英語平行語料庫中提取的西班牙語文章。該平行資源集合來自MedlinePlus源。 |
PubMed | 1,858,966 | 2017年從PubMed存儲庫爬取的開放獲取文章。 |
評估
該模型在三個命名實體識別 (NER) 任務上進行了微調,使用了三個臨床NER數據集:
- PharmaCoNER:是一個從西班牙語醫學文本中識別化學和藥物提及的任務(更多信息請見:https://temu.bsc.es/pharmaconer/)。
- CANTEMIST:是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務(更多信息請見:https://zenodo.org/record/3978041#.YTt5qH2xXbQ)。
- ICTUSnet:由來自18家不同西班牙醫院的1006份中風患者出院報告組成。它包含超過79,000個註釋,涉及51種不同類型的變量。
我們將NER任務作為一個標記分類問題,使用標準線性層和BIO標記方案來解決。我們將我們的模型與通用領域的西班牙語 roberta-base-bne、支持西班牙語的通用領域多語言模型 mBERT、特定領域的英語模型 BioBERT 以及三個基於持續預訓練的特定領域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 進行了比較。下表顯示了獲得的F1分數:
任務/模型 | bsc-bio-ehr-es | XLM-R-Galén | BETO-Galén | mBERT-Galén | mBERT | BioBERT | roberta-base-bne |
---|---|---|---|---|---|---|---|
PharmaCoNER | 0.8913 | 0.8754 | 0.8537 | 0.8594 | 0.8671 | 0.8545 | 0.8474 |
CANTEMIST | 0.8340 | 0.8078 | 0.8153 | 0.8168 | 0.8116 | 0.8070 | 0.7875 |
ICTUSnet | 0.8756 | 0.8716 | 0.8498 | 0.8509 | 0.8631 | 0.8521 | 0.8677 |
微調腳本可以在官方GitHub 倉庫 中找到。
📄 許可證
本項目採用 Apache許可證2.0版。
作者
巴塞羅那超級計算中心的文本挖掘單元 (TeMU) (bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化與人工智能國務秘書處 (SEDIA) 所有 (2022)
資金支持
這項工作由西班牙數字化與人工智能國務秘書處 (SEDIA) 在Plan - TL框架內資助。
引用信息
如果您使用這些模型,請引用我們的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型所產生的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 西班牙數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。



