🚀 MedBERT模型
MedBERT 是一种新的基于预训练Transformer的生物医学命名实体识别语言模型:它以 Bio_ClinicalBERT 为初始模型,并在N2C2、BioNLP和CRAFT社区数据集上进行了预训练。
🚀 快速开始
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Charangan/MedBERT")
model = AutoModel.from_pretrained("Charangan/MedBERT")
✨ 主要特性
MedBERT基于Transformer架构,专为生物医学命名实体识别任务而设计。它以Bio_ClinicalBERT为基础进行初始化,并在多个生物医学社区数据集上进行预训练,能够有效处理生物医学领域的文本。
📦 安装指南
暂未提及具体安装步骤,可参考代码示例中的依赖库安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Charangan/MedBERT")
model = AutoModel.from_pretrained("Charangan/MedBERT")
📚 详细文档
预训练
数据
MedBERT
模型在N2C2、BioNLP、CRAFT社区数据集以及Wikipedia上进行训练。
属性 |
详情 |
训练数据 |
N2C2(2018年和2022年N2C2挑战中发布的临床笔记集合)、BioNLP(包含BioNLP项目下发布的文章,涵盖分子生物学、蛋白质和DNA修饰信息提取、传染病的生物分子机制等多个生物医学学科)、CRAFT(由来自PubMed Central的67篇全文开放获取生物医学期刊文章组成,涵盖生物化学和分子生物学、遗传学、发育生物学和计算生物学等广泛的生物医学领域)、Wikipedia(爬取的医学相关文章) |
流程
该模型使用 Google的BERT仓库 中的代码进行训练。模型参数以Bio_ClinicalBERT进行初始化。
超参数
预训练模型时,我们使用的批量大小为32,最大序列长度为256,学习率为1·10−4。模型训练了200,000步。用于复制带有不同掩码的输入数据的重复因子设置为5。使用所有其他默认参数(具体而言,掩码语言模型概率 = 0.15,每个序列的最大预测数 = 22)。
更多信息
有关生物医学命名实体识别任务的更多详细信息和性能,请参考原始论文 MedBERT: A Pre-trained Language Model for Biomedical Named Entity Recognition(APSIPA Conference 2022)。
📄 许可证
本项目采用MIT许可证。
🔧 技术细节
模型基于Transformer架构,以Bio_ClinicalBERT为初始化模型,在多个生物医学数据集上进行预训练。通过特定的超参数设置和训练流程,使其能够在生物医学命名实体识别任务中取得较好的效果。
📖 引用
@INPROCEEDINGS{9980157,
author={Vasantharajan, Charangan and Tun, Kyaw Zin and Thi-Nga, Ho and Jain, Sparsh and Rong, Tong and Siong, Chng Eng},
booktitle={2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)},
title={MedBERT: A Pre-trained Language Model for Biomedical Named Entity Recognition},
year={2022},
volume={},
number={},
pages={1482-1488},
doi={10.23919/APSIPAASC55919.2022.9980157}
}