🚀 生物医学命名实体识别模型:bert-base-cased-biological-ner
本模型专为生物医学领域的命名实体识别(NER)任务而设计,可精准识别和分类基因、蛋白质、疾病等实体,助力信息检索、知识提取和数据挖掘等应用。
🚀 快速开始
代码示例
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
注意事项
⚠️ 重要提示
此模型已被基于 ModernBERT 架构微调的新版本所取代。您可以查看以下改进后的模型:
这些较新的模型在生物医学 NER 任务中表现更优,建议在大多数应用场景中使用。
✨ 主要特性
- 专为生物医学领域设计:针对生物医学领域的命名实体识别任务进行了微调,能有效识别和分类基因、蛋白质、疾病等实体。
- 基于 BERT 架构:采用 BERT(Bidirectional Encoder Representations from Transformers)架构,具有强大的语言理解能力。
- 在大规模数据集上微调:在 SourceData 数据集 上进行了微调,该数据集是一个用于出版领域机器学习和人工智能的大型综合生物医学语料库。
📦 安装指南
文档未提供具体安装命令,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
📚 详细文档
模型详情
属性 |
详情 |
模型名称 |
bert-base-cased-biomedical-ner |
模型架构 |
BERT(Bidirectional Encoder Representations from Transformers) |
预训练模型 |
bert-base-cased |
微调数据集 |
SourceData 数据集 |
模型描述
bert-base-cased-biomedical-ner
是 BERT(Bidirectional Encoder Representations from Transformers)模型的微调变体,专门为生物医学领域的命名实体识别(NER)任务而设计。该模型在 SourceData 数据集上进行了微调,这是一个用于出版领域机器学习和人工智能的大型综合生物医学语料库。
命名实体识别是自然语言处理中的一项关键任务,在生物医学领域尤为重要。在该领域,识别和分类基因、蛋白质、疾病等实体对于信息检索、知识提取和数据挖掘等各种应用至关重要。
预期用途
bert-base-cased-biological-ner
模型旨在用于生物医学领域的 NER 任务。它可用于一系列应用,包括但不限于:
- 从非结构化文本中识别和提取生物医学实体(如基因、蛋白质、疾病)。
- 增强科学文献的信息检索系统。
- 支持从生物医学文献中提取知识和进行数据挖掘。
- 促进结构化生物医学数据库的创建。
标签信息
标签 |
描述 |
SMALL_MOLECULE |
小分子 |
GENEPROD |
基因产物(基因和蛋白质) |
SUBCELLULAR |
亚细胞成分 |
CELL_LINE |
细胞系 |
CELL_TYPE |
细胞类型 |
TISSUE |
组织和器官 |
ORGANISM |
物种 |
DISEASE |
疾病 |
EXP_ASSAY |
实验测定 |
标签信息来源:EMBO/SourceData 数据集 |
|
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam,β1 = 0.9,β2 = 0.999,ε = 1e-08
- 学习率调度器类型:线性
- 训练轮数:3
框架版本
- Transformers 4.35.0
- Pytorch 2.1.0+cu118
- Datasets 2.14.6
- Tokenizers 0.14.1
📄 许可证
本模型采用 Apache-2.0 许可证。