🚀 西班牙語生物醫學語言模型
本項目是一個西班牙語生物醫學預訓練語言模型,可用於掩碼語言建模任務,也可在下游任務中進行微調,為生物醫學領域的自然語言處理提供支持。
🚀 快速開始
你可以通過以下方式使用該模型:
在推理API中嘗試,或參考後續章節的使用說明。
✨ 主要特性
- 特定領域適配:專為西班牙語生物醫學領域設計,能更好地處理該領域的文本。
- 多任務支持:可用於掩碼語言建模任務,也可在命名實體識別、文本分類等下游任務中進行微調。
📦 安裝指南
文檔未提及安裝步驟,暫無法提供。
💻 使用示例
基礎用法
文檔未提供基礎用法的代碼示例,暫無法提供。
高級用法
文檔未提供高級用法的代碼示例,暫無法提供。
📚 詳細文檔
模型描述
這是一個用於西班牙語的生物醫學預訓練語言模型。有關語料庫、預訓練和評估的更多詳細信息,請查看官方 倉庫。
預期用途和限制
該模型僅適用於掩碼語言建模,以執行填充掩碼任務(可嘗試推理API或閱讀下一部分)。不過,它旨在在命名實體識別或文本分類等下游任務上進行微調。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成,此模型卡片將進行更新。
訓練
分詞和模型預訓練
此模型是一個基於 RoBERTa 的模型,在從多個來源收集的西班牙語 生物醫學 語料庫上進行訓練(見下一節)。
訓練語料庫使用了 字節對編碼(BPE) 的字節版本進行分詞,這與原始 RoBERTA 模型中使用的方法相同,詞彙量為52,000個標記。預訓練包括在子詞級別進行掩碼語言模型訓練,採用了與RoBERTa基礎模型相同的方法和超參數。訓練總共持續了48小時,使用了16個16GB DDRAM的NVIDIA V100 GPU,採用Adam優化器,峰值學習率為0.0005,有效批量大小為2,048個句子。
訓練語料庫和預處理
訓練語料庫由多個西班牙語生物醫學語料庫組成,這些語料庫是從公開可用的語料庫和爬蟲中收集的。
為了獲得高質量的訓練語料庫,應用了一個包含以下操作的清理流程:
- 不同格式的數據解析
- 句子分割
- 語言檢測
- 過濾格式錯誤的句子
- 去重重複內容
- 保留原始文檔邊界
最後,將語料庫進行拼接,並在語料庫之間進行進一步的全局去重。
結果是一箇中等規模的西班牙語生物醫學語料庫,約由9.63億個標記組成。下表顯示了各個清理後語料庫的一些基本統計信息:
屬性 |
詳情 |
模型類型 |
基於RoBERTa的西班牙語生物醫學預訓練語言模型 |
訓練數據 |
由多個西班牙語生物醫學語料庫組成,包括Medical crawler、Clinical cases misc.、Scielo等,約9.63億個標記 |
名稱 |
標記數量 |
描述 |
Medical crawler |
903,558,136 |
對屬於西班牙語生物醫學和健康領域的3000多個URL進行爬取的結果 |
Clinical cases misc. |
102,855,267 |
各種醫學內容的雜項,主要是臨床病例 |
Scielo |
60,007,289 |
2017年從西班牙SciELO服務器爬取的西班牙語出版物 |
BARR2_background |
24,516,442 |
包含來自各種臨床學科的西班牙語臨床案例研究部分的生物醫學縮寫識別和解析(BARR2) |
Wikipedia_life_sciences |
13,890,501 |
2021年1月4日使用 Wikipedia API python庫 從“Ciencias_de_la_vida”類別開始爬取的維基百科文章,最多到5個子類別 |
Patents |
13,463,387 |
西班牙醫學領域的谷歌專利,接受的專利JSON文件代碼為:“A61B”、“A61C”、“A61F”、“A61H”、“A61K”、“A61L”、“A61M”、“A61B”、“A61P” |
EMEA |
5,377,448 |
從歐洲藥品管理局的PDF文檔組成的平行語料庫中提取的西班牙語文檔 |
mespen_Medline |
4,166,077 |
從西班牙語 - 英語平行語料庫集合中提取的西班牙語文章,該集合來自MedlinePlus源 |
PubMed |
1,858,966 |
2017年從PubMed存儲庫爬取的開放獲取文章 |
評估
該模型在三個命名實體識別(NER)任務上進行了微調,使用了三個臨床NER數據集:
- PharmaCoNER:是一個從西班牙語醫學文本中識別化學和藥物提及的任務(更多信息請見:https://temu.bsc.es/pharmaconer/)。
- CANTEMIST:是一個專門關注西班牙語腫瘤形態命名實體識別的共享任務(更多信息請見:https://zenodo.org/record/3978041#.YTt5qH2xXbQ)。
- ICTUSnet:由來自18家不同西班牙醫院的1006份中風患者出院報告組成,包含超過79,000個註釋,涉及51種不同類型的變量。
我們將NER任務作為一個標記分類問題,使用標準的線性層和BIO標記模式。我們將我們的模型與通用領域的西班牙語 roberta-base-bne、支持西班牙語的通用領域多語言模型 mBERT、特定領域的英語模型 BioBERT 以及三個基於持續預訓練的特定領域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 進行了比較。
下表顯示了獲得的F1分數:
任務/模型 |
bsc-bio-es |
XLM-R-Galén |
BETO-Galén |
mBERT-Galén |
mBERT |
BioBERT |
roberta-base-bne |
PharmaCoNER |
0.8907 |
0.8754 |
0.8537 |
0.8594 |
0.8671 |
0.8545 |
0.8474 |
CANTEMIST |
0.8220 |
0.8078 |
0.8153 |
0.8168 |
0.8116 |
0.8070 |
0.7875 |
ICTUSnet |
0.8727 |
0.8716 |
0.8498 |
0.8509 |
0.8631 |
0.8521 |
0.8677 |
微調腳本可以在官方GitHub 倉庫 中找到。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化和人工智能秘書處(SEDIA)所有(2022年)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化和人工智能秘書處(SEDIA)在Plan-TL框架內資助。
引用信息
如果您使用這些模型,請引用我們的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 數字化和人工智能秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型產生的任何結果負責。