🚀 PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer 西班牙生物醫學模型
本模型是基於西班牙語的RoBERTa-base生物醫學模型,針對PharmaCoNER數據集上的命名實體識別(NER)任務進行了微調。它能夠有效識別生物醫學文本中的物質、化合物和蛋白質實體,為生物醫學領域的信息提取提供了有力支持。
🚀 快速開始
該模型可用於生物醫學文本的命名實體識別任務。你可以通過以下方式使用:
✨ 主要特性
- 特定領域微調:基於PharmaCoNER數據集進行微調,在生物醫學命名實體識別任務上表現出色。
- 高評估指標:F1分數達到0.8913,具有較高的識別準確性。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
高級用法
📚 詳細文檔
模型描述
本模型是 bsc-bio-ehr-es 模型的微調版本,基於 RoBERTa 基礎模型。它使用了迄今為止已知的最大的西班牙生物醫學語料庫進行預訓練,該語料庫由生物醫學文檔、臨床病例和電子健康記錄(EHR)文檔組成,總共處理了11億個乾淨且去重的文本標記。
預期用途和限制
暫未提供相關內容。
限制和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成研究,本模型卡片將進行更新。
訓練
使用的數據集是 PharmaCoNER,這是一個標註了物質、化合物和蛋白質實體的命名實體識別數據集。更多信息請查看 官方網站。
評估
F1分數:0.8913。
如需瞭解評估詳情,請訪問我們的 GitHub倉庫。
額外信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化和人工智能國務秘書處(SEDIA)所有(2022)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化和人工智能國務秘書處(SEDIA)在Plan - TL框架內資助。
引用信息
如果您使用這些模型,請引用我們的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意減輕使用這些模型帶來的風險是他們的責任,並且在任何情況下都應遵守適用的法規,包括有關人工智能使用的法規。
在任何情況下,模型的所有者(SEDIA - 西班牙數字化和人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型產生的任何結果負責。
🔧 技術細節
暫未提供相關技術細節。
📄 許可證
本模型使用 Apache License, Version 2.0 許可證。