Roberta Base Biomedical Clinical Es
模型概述
模型特點
模型能力
使用案例
🚀 西班牙語生物醫學臨床語言模型
本項目是一個西班牙語生物醫學預訓練語言模型,可用於掩碼語言建模任務,也可在下游任務(如命名實體識別或文本分類)中進行微調。
🚀 快速開始
本模型可直接用於掩碼語言建模以執行填充掩碼任務(可以嘗試推理 API 或閱讀後續部分)。不過,它也可用於在下游任務(如命名實體識別或文本分類)中進行微調。
✨ 主要特性
- 基於 RoBERTa 架構,在西班牙語生物醫學臨床語料庫上進行預訓練。
- 可直接用於填充掩碼任務,也可在下游任務中進行微調。
📦 安裝指南
文檔中未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")
# 輸出
[
{
"sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
"score": 0.9855039715766907,
"token": 3529,
"token_str": " hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
"score": 0.0039140828885138035,
"token": 1945,
"token_str": " diabetes"
},
{
"sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
"score": 0.002484665485098958,
"token": 11483,
"token_str": " hipotensión"
},
{
"sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
"score": 0.0023484621196985245,
"token": 12238,
"token_str": " Hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la presión arterial.",
"score": 0.0008009297889657319,
"token": 2267,
"token_str": " presión"
}
]
📚 詳細文檔
模型描述
這是一個用於西班牙語的生物醫學預訓練語言模型。該模型基於 RoBERTa 架構,在從多個來源收集的西班牙語生物醫學臨床語料庫上進行訓練。
預期用途和限制
該模型僅可直接用於掩碼語言建模以執行填充掩碼任務(嘗試推理 API 或閱讀下一節)。不過,它旨在在下游任務(如命名實體識別或文本分類)中進行微調。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是使用爬蟲技術從多個網絡來源收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成研究,此模型卡片將進行更新。
訓練
訓練語料庫使用了 Byte-Pair Encoding (BPE) 的字節版本進行分詞,這與原始 RoBERTa 模型中使用的方法相同,詞彙量為 52,000 個標記。預訓練包括在子詞級別進行掩碼語言模型訓練,遵循 RoBERTa 基礎模型採用的方法,並使用與原始工作相同的超參數。訓練總共持續了 48 小時,使用了 16 個 16GB DDRAM 的 NVIDIA V100 GPU,採用 Adam 優化器,峰值學習率為 0.0005,有效批量大小為 2,048 個句子。
訓練語料庫由幾個西班牙語生物醫學語料庫組成,這些語料庫來自公開可用的語料庫和爬蟲,以及從超過 278,000 份臨床文檔和筆記中收集的真實臨床語料庫。為了獲得高質量的訓練語料庫,同時保留臨床語言的特點,僅對生物醫學語料庫應用了清理流程,而臨床語料庫保持未清理狀態。本質上,使用的清理操作包括:
- 不同格式的數據解析
- 句子分割
- 語言檢測
- 格式錯誤句子的過濾
- 重複內容的去重
- 保留原始文檔邊界
然後,將生物醫學語料庫進行連接,並在生物醫學語料庫之間進行進一步的全局去重。最終,將臨床語料庫連接到清理後的生物醫學語料庫,形成一個包含超過 10 億個標記的中等規模西班牙語生物醫學臨床語料庫。下表顯示了各個清理後語料庫的一些基本統計信息:
名稱 | 標記數量 | 描述 |
---|---|---|
Medical crawler | 745,705,946 | 對屬於西班牙語生物醫學和健康領域的 3000 多個 URL 進行爬取的結果。 |
臨床病例雜項 | 102,855,267 | 各種醫學內容,主要是臨床病例。請注意,臨床病例報告是醫學從業者分享患者病例的科學出版物,與臨床筆記或文檔不同。 |
臨床筆記/文檔 | 91,250,080 | 收集了超過 278,000 份臨床文檔,包括出院報告、臨床病程記錄和 X 光報告,總共包含 9100 萬個標記。 |
Scielo | 60,007,289 | 2017 年從西班牙 SciELO 服務器爬取的西班牙語出版物。 |
BARR2_background | 24,516,442 | 生物醫學縮寫識別和解析 (BARR2),包含來自各種臨床學科的西班牙語臨床病例研究部分。 |
維基百科生命科學 | 13,890,501 | 2021 年 4 月 1 日使用 Wikipedia API python 庫 從“Ciencias_de_la_vida”類別開始爬取的維基百科文章,最多爬取 5 個子類別。然後丟棄指向同一文章的多個鏈接,以避免重複內容。 |
專利 | 13,463,387 | 西班牙醫學領域的谷歌專利(西班牙語)。專利 Json 文件接受的代碼(醫學領域)為:"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。 |
EMEA | 5,377,448 | 從歐洲藥品管理局的 PDF 文檔組成的平行語料庫中提取的西班牙語文檔。 |
mespen_Medline | 4,166,077 | 從一個由生物醫學科學文獻組成的西班牙語 - 英語平行語料庫中提取的西班牙語文章。平行資源的集合來自 MedlinePlus 來源。 |
PubMed | 1,858,966 | 2017 年從 PubMed 存儲庫爬取的開放獲取文章。 |
評估
該模型在命名實體識別 (NER) 任務上使用以下數據集進行了評估:
- PharmaCoNER:是一個從西班牙語醫學文本中識別化學和藥物提及的任務(更多信息請參閱:https://temu.bsc.es/pharmaconer/)。
- CANTEMIST:是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務(更多信息請參閱:https://zenodo.org/record/3978041#.YTt5qH2xXbQ)。
- ICTUSnet:由來自 18 家不同西班牙醫院的 1,006 份中風患者出院報告組成。它包含 51 種不同類型變量的超過 79,000 個註釋。
F1 - 精確率 - 召回率 | roberta-base-biomedical-clinical-es | mBERT | BETO |
---|---|---|---|
PharmaCoNER | 90.04 - 88.92 - 91.18 | 87.46 - 86.50 - 88.46 | 88.18 - 87.12 - 89.28 |
CANTEMIST | 83.34 - 81.48 - 85.30 | 82.61 - 81.12 - 84.15 | 82.42 - 80.91 - 84.00 |
ICTUSnet | 88.08 - 84.92 - 91.50 | 86.75 - 83.53 - 90.23 | 85.95 - 83.10 - 89.02 |
🔧 技術細節
訓練語料庫使用了 Byte-Pair Encoding (BPE) 的字節版本進行分詞,這與原始 RoBERTa 模型中使用的方法相同,詞彙量為 52,000 個標記。預訓練包括在子詞級別進行掩碼語言模型訓練,遵循 RoBERTa 基礎模型採用的方法,並使用與原始工作相同的超參數。訓練總共持續了 48 小時,使用了 16 個 16GB DDRAM 的 NVIDIA V100 GPU,採用 Adam 優化器,峰值學習率為 0.0005,有效批量大小為 2,048 個句子。
📄 許可證
本項目採用 Apache License, Version 2.0 許可證。
作者
巴塞羅那超級計算中心的文本挖掘單元 (TeMU) (bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化和人工智能國務秘書處 (SEDIA) 所有 (2022)
資金支持
這項工作由西班牙數字化和人工智能國務秘書處 (SEDIA) 在 Plan-TL 框架內提供資金支持。
引用信息
如果您使用我們的模型,請引用我們的最新預印本:
@misc{carrino2021biomedical,
title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2109.03570},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
如果您使用我們的 Medical Crawler 語料庫,請引用預印本:
@misc{carrino2021spanish,
title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
year={2021},
eprint={2109.07765},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 西班牙數字化和人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。



