ner-gene-dna-rna-jnlpba-pubmed开源模型 - 精准识别生物医学基因等实体

首页

Ner Gene Dna Rna Jnlpba Pubmed

由 raynardj 开发

该模型基于jnlpba数据集训练，在预训练的PubMed版RoBERTa模型基础上微调，专门用于识别基因、DNA、RNA、蛋白质等生物医学实体

序列标注

Transformers

支持多种语言开源协议:Apache-2.0 #生物医学NER #基因实体识别 #RoBERTa微调

下载量 149

发布时间 : 3/2/2022

模型简介

一个生物医学领域的命名实体识别模型，能够从文本中识别基因、DNA、RNA、蛋白质等生物分子实体

模型特点

生物医学实体识别

专门针对基因、DNA、RNA、蛋白质等生物医学实体进行优化

基于PubMed数据预训练

在PubMed生物医学文献数据上预训练，具有领域适应性

简化标签系统

移除了传统的'B-','I-'前缀标记，使用更简单的标签系统

模型能力

识别基因实体

识别DNA序列

识别RNA分子

识别蛋白质

识别细胞系

识别细胞类型

使用案例

生物医学文献挖掘

基因文献分析

从生物医学文献中提取基因和蛋白质相关信息

可准确识别文献中提到的各种生物分子实体

生物医学知识图谱构建

作为知识图谱构建的预处理步骤，识别文本中的生物实体

生物信息学研究

实验数据分析

帮助研究人员从实验数据描述中提取关键生物分子信息

🚀 基因与基因产物命名实体识别

本项目旨在通过命名实体识别（NER）技术，精准识别文本中的基因及基因产物。模型基于 jnlpba 数据集进行训练，并在 pubmed-pretrained roberta 模型上进行预训练，能够有效处理生物信息学领域的文本，识别 DNA、RNA、蛋白质等关键实体。

🚀 快速开始

环境准备

确保你已经安装了 transformers 和 pandas 库，可以使用以下命令进行安装：

pip install transformers pandas

模型使用

以下是使用该模型进行命名实体识别的基本代码示例：

from transformers import pipeline

PRETRAINED = "raynardj/ner-gene-dna-rna-jnlpba-pubmed"
ner = pipeline(task="ner", model=PRETRAINED, tokenizer=PRETRAINED)
ner("Your text", aggregation_strategy="first")

输出处理

为了使输出结果更加连贯，我们提供了以下代码示例：

import pandas as pd
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)

def clean_output(outputs):
    results = []
    current = []
    last_idx = 0
    # make to sub group by position
    for output in outputs:
        if output["index"]-1==last_idx:
            current.append(output)
        else:
            results.append(current)
            current = [output, ]
        last_idx = output["index"]
    if len(current)>0:
        results.append(current)
    
    # from tokens to string
    strings = []
    for c in results:
        tokens = []
        starts = []
        ends = []
        for o in c:
            tokens.append(o['word'])
            starts.append(o['start'])
            ends.append(o['end'])

        new_str = tokenizer.convert_tokens_to_string(tokens)
        if new_str!='':
            strings.append(dict(
                word=new_str,
                start = min(starts),
                end = max(ends),
                entity = c[0]['entity']
            ))
    return strings

def entity_table(pipeline, **pipeline_kw):
    if "aggregation_strategy" not in pipeline_kw:
        pipeline_kw["aggregation_strategy"] = "first"
    def create_table(text):
        return pd.DataFrame(
            clean_output(
                pipeline(text, **pipeline_kw)
            )
        )
    return create_table

# will return a dataframe
entity_table(ner)("YOUR_VERY_CONTENTFUL_TEXT")

✨ 主要特性

多实体识别：能够识别多种生物信息学相关的实体，包括 DNA、RNA、蛋白质、细胞系和细胞类型。
简化标签：去除了数据标签中的 'B-'、'I-' 等前缀，使标签更加简洁。
输出处理：提供了输出处理函数，使识别结果更加连贯，方便后续分析。

📦 安装指南

使用 pip 安装所需的库：

pip install transformers pandas

💻 使用示例

基础用法

from transformers import pipeline

PRETRAINED = "raynardj/ner-gene-dna-rna-jnlpba-pubmed"
ner = pipeline(task="ner", model=PRETRAINED, tokenizer=PRETRAINED)
ner("It consists of 25 exons encoding a 1,278-amino acid glycoprotein that is composed of 13 transmembrane domains", aggregation_strategy="first")

高级用法

import pandas as pd
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)

# 定义输出处理函数
def clean_output(outputs):
    results = []
    current = []
    last_idx = 0
    # 按位置分组
    for output in outputs:
        if output["index"] - 1 == last_idx:
            current.append(output)
        else:
            results.append(current)
            current = [output]
        last_idx = output["index"]
    if len(current) > 0:
        results.append(current)

    # 将 token 转换为字符串
    strings = []
    for c in results:
        tokens = []
        starts = []
        ends = []
        for o in c:
            tokens.append(o['word'])
            starts.append(o['start'])
            ends.append(o['end'])

        new_str = tokenizer.convert_tokens_to_string(tokens)
        if new_str != '':
            strings.append(dict(
                word=new_str,
                start=min(starts),
                end=max(ends),
                entity=c[0]['entity']
            ))
    return strings

def entity_table(pipeline, **pipeline_kw):
    if "aggregation_strategy" not in pipeline_kw:
        pipeline_kw["aggregation_strategy"] = "first"

    def create_table(text):
        return pd.DataFrame(
            clean_output(
                pipeline(text, **pipeline_kw)
            )
        )
    return create_table

# 返回一个 DataFrame
entity_table(ner)("It consists of 25 exons encoding a 1,278-amino acid glycoprotein that is composed of 13 transmembrane domains")

📚 详细文档

标签说明

所有可能的标签及其对应的 ID 如下：

{"label2id": {
    "DNA": 2,
    "O": 0,
    "RNA": 5,
    "cell_line": 4,
    "cell_type": 3,
    "protein": 1
  }
 }

注意，我们去除了数据标签中的 'B-'、'I-' 等前缀。🗡

其他模型

你可以查看我们的其他 NER 模型：

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库