開源bsc - bio - ehr - es - pharmaconer模型，免費實現西班牙語生物醫學命名實體識別

首頁

Bsc Bio Ehr Es Pharmaconer

由PlanTL-GOB-ES開發

這是一個基於RoBERTa的西班牙語生物醫學模型，專門針對PharmaCoNER數據集進行命名實體識別任務微調。

序列標註

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語生物醫學NER #臨床電子病歷分析 #藥物實體識別

下載量 250

發布時間 : 4/6/2022

模型概述

該模型基於RoBERTa基礎架構，使用西班牙語生物醫學語料庫預訓練，並在PharmaCoNER數據集上微調，用於識別生物醫學文本中的物質、化合物和蛋白質實體。

模型特點

生物醫學領域優化

使用11億標記的西班牙語生物醫學語料庫預訓練，特別適合處理臨床和生物醫學文本

高精度實體識別

在PharmaCoNER數據集上達到0.8913的F1值，能準確識別物質、化合物和蛋白質實體

臨床文本適配

訓練數據包含電子健康記錄(EHR)和臨床病例，對醫療領域文本有良好適應性

模型能力

生物醫學文本分析

臨床實體識別

藥物和化合物識別

蛋白質實體檢測

使用案例

臨床研究

藥物副作用分析

從臨床記錄中識別可能與藥物副作用相關的實體

可幫助研究人員快速定位潛在藥物不良反應

實驗室結果解析

解析包含實驗室檢測結果的臨床文本

自動提取關鍵生物標記物和數值

醫療信息提取

電子健康記錄處理

從EHR中提取藥物、劑量和治療方案信息

支持醫療決策和患者管理

🚀 PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer 西班牙生物醫學模型

本模型是基於西班牙語的RoBERTa-base生物醫學模型，針對PharmaCoNER數據集上的命名實體識別（NER）任務進行了微調。它能夠有效識別生物醫學文本中的物質、化合物和蛋白質實體，為生物醫學領域的信息提取提供了有力支持。

🚀 快速開始

該模型可用於生物醫學文本的命名實體識別任務。你可以通過以下方式使用：

# 代碼示例將根據實際情況補充

✨ 主要特性

特定領域微調：基於PharmaCoNER數據集進行微調，在生物醫學命名實體識別任務上表現出色。
高評估指標：F1分數達到0.8913，具有較高的識別準確性。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

# 這裡可以根據實際的使用代碼進行補充

高級用法

# 高級使用場景說明
# 這裡可以根據實際的高級使用代碼進行補充

📚 詳細文檔

模型描述

本模型是 bsc-bio-ehr-es 模型的微調版本，基於 RoBERTa 基礎模型。它使用了迄今為止已知的最大的西班牙生物醫學語料庫進行預訓練，該語料庫由生物醫學文檔、臨床病例和電子健康記錄（EHR）文檔組成，總共處理了11億個乾淨且去重的文本標記。

預期用途和限制

暫未提供相關內容。

限制和偏差

在提交時，尚未採取措施來估計模型中嵌入的偏差。然而，我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的，我們的模型可能存在偏差。我們打算在未來對這些領域進行研究，如果完成研究，本模型卡片將進行更新。

訓練

使用的數據集是 PharmaCoNER，這是一個標註了物質、化合物和蛋白質實體的命名實體識別數據集。更多信息請查看官方網站。

評估

F1分數：0.8913。如需瞭解評估詳情，請訪問我們的 GitHub倉庫。

額外信息

作者

巴塞羅那超級計算中心的文本挖掘單元（TeMU）（bsc-temu@bsc.es）

聯繫信息

如需進一步信息，請發送電子郵件至 plantl-gob-es@bsc.es

版權

版權歸西班牙數字化和人工智能國務秘書處（SEDIA）所有（2022）

許可信息

Apache許可證，版本2.0

資金支持

這項工作由西班牙數字化和人工智能國務秘書處（SEDIA）在Plan - TL框架內資助。

引用信息

如果您使用這些模型，請引用我們的工作：

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}