roberta-base-biomedical-es開源模型 - 用於西班牙語生物醫學臨床文本處理

首頁

Roberta Base Biomedical Es

由PlanTL-GOB-ES開發

專為西班牙語生物醫學領域設計的RoBERTa架構預訓練語言模型，適用於臨床文本處理任務

大型語言模型

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語生物醫學 #臨床文本處理 #醫療命名實體識別

下載量 335

發布時間 : 3/2/2022

模型概述

基於RoBERTa架構的中等規模生物醫學語言模型，在9.63億標記的西班牙語生物醫學語料上訓練，支持掩碼語言建模任務，特別適合生物醫學文本的命名實體識別和文本分類

模型特點

領域專業化

專門針對西班牙語生物醫學領域優化，在臨床文本處理上表現優於通用模型

高質量語料

使用經過嚴格清洗的9.63億標記生物醫學語料訓練，整合了多個權威醫學數據源

高效訓練

採用與原始RoBERTa相同的訓練參數，在16塊V100 GPU上僅需48小時完成訓練

模型能力

生物醫學文本填空

臨床命名實體識別

醫學文本分類

生物醫學信息抽取

使用案例

臨床文檔處理

病史自動補全

自動補全臨床記錄中的專業術語

示例顯示對'動脈<mask>'的補全準確率達98.5%

放射學報告分析

識別影像報告中的異常描述

在骨骼X光報告中準確識別異常描述

醫學研究

文獻信息抽取

從醫學文獻中提取關鍵臨床信息

🚀 西班牙語生物醫學語言模型

該模型是專門為西班牙語設計的生物醫學預訓練語言模型，可用於填充掩碼任務，也可在下游任務中微調使用。

🚀 快速開始

模型描述

這是一個用於西班牙語的生物醫學預訓練語言模型。如需瞭解有關語料庫、預訓練和評估的更多詳細信息，請查看官方倉庫並閱讀我們的預印本。

預期用途和限制

該模型僅適用於掩碼語言建模，以執行填充掩碼任務（您可以嘗試推理 API 或閱讀下一部分）。不過，它旨在在諸如命名實體識別或文本分類等下游任務上進行微調。

如何使用

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")

# 輸出
[
  {
    "sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
    "score": 0.9855039715766907,
    "token": 3529,
    "token_str": " hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
    "score": 0.0039140828885138035,
    "token": 1945,
    "token_str": " diabetes"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
    "score": 0.002484665485098958,
    "token": 11483,
    "token_str": " hipotensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
    "score": 0.0023484621196985245,
    "token": 12238,
    "token_str": " Hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la presión arterial.",
    "score": 0.0008009297889657319,
    "token": 2267,
    "token_str": " presión"
  }
]

✨ 主要特性

該模型基於 RoBERTa 架構，在西班牙語生物醫學語料上進行預訓練，可用於填充掩碼任務，也能在下游任務中微調，如命名實體識別和文本分類。

📦 安裝指南

文檔未提及安裝步驟，故跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")

📚 詳細文檔

訓練

分詞和模型預訓練

該模型是一個基於 RoBERTa 的模型，在從多個來源收集的西班牙語 生物醫學 語料庫上進行訓練（詳見下一節）。

訓練語料庫使用了字節對編碼 (BPE) 的字節版本進行分詞，該版本在原始 RoBERTA 模型中使用，詞彙量為 52,000 個標記。預訓練包括在子詞級別進行掩碼語言模型訓練，採用了與 RoBERTa 基礎模型相同的方法，並使用了與原始工作相同的超參數。訓練總共持續了 48 小時，使用了 16 個 16GB DDRAM 的 NVIDIA V100 GPU，採用 Adam 優化器，峰值學習率為 0.0005，有效批量大小為 2,048 個句子。

訓練語料庫和預處理

訓練語料庫由幾個西班牙語生物醫學語料庫組成，這些語料庫從公開可用的語料庫和爬蟲中收集而來。為了獲得高質量的訓練語料庫，應用了一個包含以下操作的清理流程：

不同格式的數據解析
- 句子分割
- 語言檢測
- 過濾格式錯誤的句子
- 重複內容去重
- 保留原始文檔邊界

最後，將語料庫連接起來，並在語料庫之間進行進一步的全局去重。結果是一箇中等規模的西班牙語生物醫學語料庫，由大約 9.63 億個標記組成。下表顯示了各個清理後語料庫的一些基本統計信息：

名稱	標記數量	描述
醫學爬蟲	745,705,946	對屬於西班牙語生物醫學和健康領域的 3000 多個 URL 進行的爬蟲。
臨床病例雜項	102,855,267	各種醫學內容，主要是臨床病例。請注意，臨床病例報告是醫學從業者分享患者病例的科學出版物，它與臨床筆記或文檔不同。
Scielo	60,007,289	2017 年從西班牙 SciELO 服務器爬取的西班牙語出版物。
BARR2_background	24,516,442	生物醫學縮寫識別和解析 (BARR2)，包含來自各種臨床學科的西班牙語臨床病例研究部分。
維基百科生命科學	13,890,501	2021 年 4 月 1 日使用維基百科 API Python 庫從 “Ciencias_de_la_vida” 類別開始爬取的維基百科文章，最多爬取 5 個子類別。然後丟棄指向同一文章的多個鏈接，以避免重複內容。
專利	13,463,387	西班牙醫學領域的谷歌專利（西班牙語）。專利 Json 文件接受的代碼（醫學領域）為：“A61B”、“A61C”、“A61F”、“A61H”、“A61K”、“A61L”、“A61M”、“A61B”、“A61P”。
EMEA	5,377,448	從歐洲藥品管理局的 PDF 文檔組成的平行語料庫中提取的西班牙語文檔。
mespen_Medline	4,166,077	從一個由生物醫學科學文獻組成的西班牙語 - 英語平行語料庫集合中提取的西班牙語文章。該平行資源集合來自 MedlinePlus 來源。
PubMed	1,858,966	2017 年從 PubMed 存儲庫爬取的開放獲取文章。

評估

該模型在命名實體識別 (NER) 任務上使用以下數據集進行了評估：

PharmaCoNER：是一個關於從西班牙語醫學文本中識別化學和藥物提及的任務（更多信息請參見：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務（更多信息請參見：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由來自 18 家不同西班牙醫院的 1006 份中風患者出院報告組成。它包含 51 種不同類型變量的 79,000 多個註釋。

評估結果與 mBERT 和 BETO 模型進行了比較：

F1 - 精確率 - 召回率	roberta-base-biomedical-es	mBERT	BETO
PharmaCoNER	89.48 - 87.85 - 91.18	87.46 - 86.50 - 88.46	88.18 - 87.12 - 89.28
CANTEMIST	83.87 - 81.70 - 86.17	82.61 - 81.12 - 84.15	82.42 - 80.91 - 84.00
ICTUSnet	88.12 - 85.56 - 90.83	86.75 - 83.53 - 90.23	85.95 - 83.10 - 89.02

額外信息

作者

巴塞羅那超級計算中心的文本挖掘單元 (TeMU) (bsc-temu@bsc.es)

聯繫信息

如需進一步信息，請發送電子郵件至 plantl-gob-es@bsc.es

版權

版權歸西班牙數字化和人工智能秘書處 (SEDIA) 所有 (2022)

許可信息

Apache 許可證，版本 2.0

資金支持

這項工作由西班牙數字化和人工智能秘書處 (SEDIA) 在 Plan-TL 框架內資助。

引用信息

如果您使用我們的模型，請引用我們的最新預印本：

@misc{carrino2021biomedical,
      title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2109.03570},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

如果您使用我們的醫學爬蟲語料庫，請引用預印本：

@misc{carrino2021spanish,
      title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
      year={2021},
      eprint={2109.07765},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}