SciFive-base-Pubmed_PMC开源模型 - 助力生物医学文献文本转换研究

首页

Scifive Base Pubmed PMC

由 razent 开发

SciFive是一个专门针对生物医学文献的文本到文本转换模型，基于PubMed和PMC开放获取期刊全文库训练。

大型语言模型英语#生物医学文本生成 #PubMed/PMC预训练 #医学文献问答

下载量 754

发布时间 : 3/2/2022

模型简介

该模型主要用于处理生物医学领域的文本任务，如文本分类、问答系统和文本生成等。

模型特点

生物医学领域专用

专门针对生物医学文献进行优化，在该领域表现优异

多任务处理能力

能够处理多种文本任务，包括分类、问答和生成

大规模训练数据

基于PubMed和PMC开放获取期刊全文库训练

模型能力

生物医学文本分类

生物医学问答系统

生物医学文本生成

生物医学文献摘要

使用案例

医学研究

文献摘要生成

自动生成生物医学文献的摘要

提高研究人员文献阅读效率

医学问答系统

回答与生物医学相关的问题

辅助医学研究和临床决策

学术研究

文献分类

对生物医学文献进行自动分类

提高文献管理和检索效率

🚀 SciFive Pubmed+PMC Base

SciFive Pubmed+PMC Base是一个用于生物医学文献处理的文本到文本的变换器模型，可应用于多种自然语言处理任务，如令牌分类、文本分类、问答和文本生成等。

🚀 快速开始

对于更多详细信息，请查看我们的GitHub仓库。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("razent/SciFive-base-Pubmed_PMC")  
model = AutoModelForSeq2SeqLM.from_pretrained("razent/SciFive-base-Pubmed_PMC")

sentence = "Identification of APC2 , a homologue of the adenomatous polyposis coli tumour suppressor ."
text =  sentence + "</s>"

encoding = tokenizer.encode_plus(text, pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")

outputs = model.generate(
    input_ids=input_ids, attention_mask=attention_masks,
    max_length=256,
    early_stopping=True
)

for output in outputs:
    line = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
    print(line)

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("razent/SciFive-base-Pubmed_PMC")  
model = AutoModelForSeq2SeqLM.from_pretrained("razent/SciFive-base-Pubmed_PMC")

sentence = "Identification of APC2 , a homologue of the adenomatous polyposis coli tumour suppressor ."
text =  sentence + "</s>"

encoding = tokenizer.encode_plus(text, pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")

outputs = model.generate(
    input_ids=input_ids, attention_mask=attention_masks,
    max_length=256,
    early_stopping=True
)

for output in outputs:
    line = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
    print(line)

📚 详细文档

论文信息

论文：SciFive: a text-to-text transformer model for biomedical literature 作者：Long N. Phan, James T. Anibal, Hieu Tran, Shaurya Chanana, Erol Bahadroglu, Alec Peltekian, Grégoire Altan-Bonnet