🚀 MedBERT模型
MedBERT 是一種新的基於預訓練Transformer的生物醫學命名實體識別語言模型:它以 Bio_ClinicalBERT 為初始模型,並在N2C2、BioNLP和CRAFT社區數據集上進行了預訓練。
🚀 快速開始
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Charangan/MedBERT")
model = AutoModel.from_pretrained("Charangan/MedBERT")
✨ 主要特性
MedBERT基於Transformer架構,專為生物醫學命名實體識別任務而設計。它以Bio_ClinicalBERT為基礎進行初始化,並在多個生物醫學社區數據集上進行預訓練,能夠有效處理生物醫學領域的文本。
📦 安裝指南
暫未提及具體安裝步驟,可參考代碼示例中的依賴庫安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Charangan/MedBERT")
model = AutoModel.from_pretrained("Charangan/MedBERT")
📚 詳細文檔
預訓練
數據
MedBERT
模型在N2C2、BioNLP、CRAFT社區數據集以及Wikipedia上進行訓練。
屬性 |
詳情 |
訓練數據 |
N2C2(2018年和2022年N2C2挑戰中發佈的臨床筆記集合)、BioNLP(包含BioNLP項目下發布的文章,涵蓋分子生物學、蛋白質和DNA修飾信息提取、傳染病的生物分子機制等多個生物醫學學科)、CRAFT(由來自PubMed Central的67篇全文開放獲取生物醫學期刊文章組成,涵蓋生物化學和分子生物學、遺傳學、發育生物學和計算生物學等廣泛的生物醫學領域)、Wikipedia(爬取的醫學相關文章) |
流程
該模型使用 Google的BERT倉庫 中的代碼進行訓練。模型參數以Bio_ClinicalBERT進行初始化。
超參數
預訓練模型時,我們使用的批量大小為32,最大序列長度為256,學習率為1·10−4。模型訓練了200,000步。用於複製帶有不同掩碼的輸入數據的重複因子設置為5。使用所有其他默認參數(具體而言,掩碼語言模型概率 = 0.15,每個序列的最大預測數 = 22)。
更多信息
有關生物醫學命名實體識別任務的更多詳細信息和性能,請參考原始論文 MedBERT: A Pre-trained Language Model for Biomedical Named Entity Recognition(APSIPA Conference 2022)。
📄 許可證
本項目採用MIT許可證。
🔧 技術細節
模型基於Transformer架構,以Bio_ClinicalBERT為初始化模型,在多個生物醫學數據集上進行預訓練。通過特定的超參數設置和訓練流程,使其能夠在生物醫學命名實體識別任務中取得較好的效果。
📖 引用
@INPROCEEDINGS{9980157,
author={Vasantharajan, Charangan and Tun, Kyaw Zin and Thi-Nga, Ho and Jain, Sparsh and Rong, Tong and Siong, Chng Eng},
booktitle={2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)},
title={MedBERT: A Pre-trained Language Model for Biomedical Named Entity Recognition},
year={2022},
volume={},
number={},
pages={1482-1488},
doi={10.23919/APSIPAASC55919.2022.9980157}
}