bsc-bio-es開源語言模型 - 免費部署助力西班牙語生物醫學臨床NLP任務

首頁

Bsc Bio Es

由PlanTL-GOB-ES開發

專為西班牙語生物醫學領域設計的預訓練語言模型，適用於臨床NLP任務

大型語言模型

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語臨床文本 #生物醫學NER #RoBERTa架構

下載量 162

發布時間 : 4/8/2022

模型概述

基於RoBERTa架構的生物醫學領域專用模型，在9.63億詞元的西班牙語生物醫學語料上訓練，支持掩碼語言建模任務，特別適合臨床文本處理

模型特點

領域專業化

專門針對西班牙語生物醫學文本訓練，包含臨床病例、醫學文獻等專業語料

高性能表現

在PharmaCoNER等三項臨床NER任務上超越通用和多語言模型

大規模訓練數據

使用9.63億詞元的清洗後生物醫學語料訓練，包含醫療爬蟲、臨床病例、專利數據等多源數據

模型能力

生物醫學文本理解

臨床實體識別

醫學文本分類

醫學文本填空補全

使用案例

臨床信息提取

藥物名稱識別

從臨床文本中識別化學與藥物提及

在PharmaCoNER任務上達到0.8907 F1分數

腫瘤術語識別

識別西班牙語腫瘤形態學術語

在CANTEMIST任務上達到0.8220 F1分數

臨床文檔分析

出院報告分析

處理卒中患者出院報告中的臨床變量

在ICTUSnet數據集上達到0.8727 F1分數

🚀 西班牙語生物醫學語言模型

本項目是一個西班牙語生物醫學預訓練語言模型，可用於掩碼語言建模任務，也可在下游任務中進行微調，為生物醫學領域的自然語言處理提供支持。

🚀 快速開始

你可以通過以下方式使用該模型：在推理API中嘗試，或參考後續章節的使用說明。

✨ 主要特性

特定領域適配：專為西班牙語生物醫學領域設計，能更好地處理該領域的文本。
多任務支持：可用於掩碼語言建模任務，也可在命名實體識別、文本分類等下游任務中進行微調。

📦 安裝指南

文檔未提及安裝步驟，暫無法提供。

💻 使用示例

基礎用法

文檔未提供基礎用法的代碼示例，暫無法提供。

高級用法

文檔未提供高級用法的代碼示例，暫無法提供。

📚 詳細文檔

模型描述

這是一個用於西班牙語的生物醫學預訓練語言模型。有關語料庫、預訓練和評估的更多詳細信息，請查看官方倉庫。

預期用途和限制

該模型僅適用於掩碼語言建模，以執行填充掩碼任務（可嘗試推理API或閱讀下一部分）。不過，它旨在在命名實體識別或文本分類等下游任務上進行微調。

侷限性和偏差

在提交時，尚未採取措施來估計模型中嵌入的偏差。然而，我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的，我們的模型可能存在偏差。我們打算在未來對這些領域進行研究，如果完成，此模型卡片將進行更新。

訓練

分詞和模型預訓練

此模型是一個基於 RoBERTa 的模型，在從多個來源收集的西班牙語 生物醫學 語料庫上進行訓練（見下一節）。訓練語料庫使用了字節對編碼（BPE）的字節版本進行分詞，這與原始 RoBERTA 模型中使用的方法相同，詞彙量為52,000個標記。預訓練包括在子詞級別進行掩碼語言模型訓練，採用了與RoBERTa基礎模型相同的方法和超參數。訓練總共持續了48小時，使用了16個16GB DDRAM的NVIDIA V100 GPU，採用Adam優化器，峰值學習率為0.0005，有效批量大小為2,048個句子。

訓練語料庫和預處理

訓練語料庫由多個西班牙語生物醫學語料庫組成，這些語料庫是從公開可用的語料庫和爬蟲中收集的。為了獲得高質量的訓練語料庫，應用了一個包含以下操作的清理流程：

不同格式的數據解析
- 句子分割
- 語言檢測
- 過濾格式錯誤的句子
- 去重重複內容
- 保留原始文檔邊界最後，將語料庫進行拼接，並在語料庫之間進行進一步的全局去重。結果是一箇中等規模的西班牙語生物醫學語料庫，約由9.63億個標記組成。下表顯示了各個清理後語料庫的一些基本統計信息：

屬性	詳情
模型類型	基於RoBERTa的西班牙語生物醫學預訓練語言模型
訓練數據	由多個西班牙語生物醫學語料庫組成，包括Medical crawler、Clinical cases misc.、Scielo等，約9.63億個標記

名稱	標記數量	描述
Medical crawler	903,558,136	對屬於西班牙語生物醫學和健康領域的3000多個URL進行爬取的結果
Clinical cases misc.	102,855,267	各種醫學內容的雜項，主要是臨床病例
Scielo	60,007,289	2017年從西班牙SciELO服務器爬取的西班牙語出版物
BARR2_background	24,516,442	包含來自各種臨床學科的西班牙語臨床案例研究部分的生物醫學縮寫識別和解析（BARR2）
Wikipedia_life_sciences	13,890,501	2021年1月4日使用 Wikipedia API python庫從“Ciencias_de_la_vida”類別開始爬取的維基百科文章，最多到5個子類別
Patents	13,463,387	西班牙醫學領域的谷歌專利，接受的專利JSON文件代碼為：“A61B”、“A61C”、“A61F”、“A61H”、“A61K”、“A61L”、“A61M”、“A61B”、“A61P”
EMEA	5,377,448	從歐洲藥品管理局的PDF文檔組成的平行語料庫中提取的西班牙語文檔
mespen_Medline	4,166,077	從西班牙語 - 英語平行語料庫集合中提取的西班牙語文章，該集合來自MedlinePlus源
PubMed	1,858,966	2017年從PubMed存儲庫爬取的開放獲取文章

評估

該模型在三個命名實體識別（NER）任務上進行了微調，使用了三個臨床NER數據集：

PharmaCoNER：是一個從西班牙語醫學文本中識別化學和藥物提及的任務（更多信息請見：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務（更多信息請見：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由來自18家不同西班牙醫院的1006份中風患者出院報告組成，包含超過79,000個註釋，涉及51種不同類型的變量。

我們將NER任務作為一個標記分類問題，使用標準的線性層和BIO標記模式。我們將我們的模型與通用領域的西班牙語 roberta-base-bne、支持西班牙語的通用領域多語言模型 mBERT、特定領域的英語模型 BioBERT 以及三個基於持續預訓練的特定領域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 進行了比較。

下表顯示了獲得的F1分數：

任務/模型	bsc-bio-es	XLM-R-Galén	BETO-Galén	mBERT-Galén	mBERT	BioBERT	roberta-base-bne
PharmaCoNER	0.8907	0.8754	0.8537	0.8594	0.8671	0.8545	0.8474
CANTEMIST	0.8220	0.8078	0.8153	0.8168	0.8116	0.8070	0.7875
ICTUSnet	0.8727	0.8716	0.8498	0.8509	0.8631	0.8521	0.8677

微調腳本可以在官方GitHub 倉庫中找到。

附加信息

作者

巴塞羅那超級計算中心的文本挖掘單元（TeMU）（bsc-temu@bsc.es）

聯繫信息

如需更多信息，請發送電子郵件至 plantl-gob-es@bsc.es

版權

版權歸西班牙數字化和人工智能秘書處（SEDIA）所有（2022年）

許可信息

Apache許可證，版本2.0

資金支持

這項工作由西班牙數字化和人工智能秘書處（SEDIA）在Plan-TL框架內資助。

引用信息

如果您使用這些模型，請引用我們的工作：

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}

免責聲明

本倉庫中發佈的模型旨在用於通用目的，並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。當第三方使用這些模型（或基於這些模型的系統）部署或向其他方提供系統和/或服務，或成為模型的用戶時，他們應注意，減輕使用這些模型帶來的風險並遵守適用法規（包括有關人工智能使用的法規）是他們的責任。在任何情況下，模型的所有者（SEDIA - 數字化和人工智能秘書處）和創建者（BSC - 巴塞羅那超級計算中心）均不對第三方使用這些模型產生的任何結果負責。