T5-11b-ssm-nq开源大模型 - 免费部署实现闭卷问答功能

首页

T5 11b Ssm Nq

由 google 开发

T5-11b-ssm-nq是基于T5架构的大型语言模型，专门用于闭卷问答任务。该模型通过预训练和微调，能够在没有外部知识源的情况下回答问题。

问答系统

Transformers

英语开源协议:Apache-2.0 #闭卷问答 #大规模预训练 #知识压缩

下载量 14

发布时间 : 3/2/2022

模型简介

T5-11b-ssm-nq是一个文本到文本生成模型，主要用于闭卷问答任务。它通过预训练和微调，能够在没有外部知识源的情况下回答问题。

模型特点

闭卷问答

模型能够在没有外部知识源的情况下回答问题，隐式存储和检索知识。

大规模预训练

模型在C4和维基百科数据集上进行了预训练，增强了知识存储和检索能力。

高性能

模型在自然问题测试集上表现出色，精确匹配率达到36.6%。

模型能力

文本生成

闭卷问答

知识检索

使用案例

问答系统

自然问题回答

回答自然语言问题，无需外部知识源。

在自然问题测试集上精确匹配率达到36.6%。

🚀 [Google的T5 - 闭卷问答模型]

本项目基于Google的T5模型，用于闭卷问答任务。该模型通过在多个大型数据集上进行预训练和微调，能够在不借助外部知识源的情况下回答问题，为自然语言处理领域的知识问答提供了有效的解决方案。

🚀 快速开始

本模型可按如下方式用于闭卷问答：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-11b-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-11b-ssm-nq")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

✨ 主要特性

多阶段训练：模型首先在C4上使用T5的去噪目标进行预训练，接着在Wikipedia上使用REALM的显著跨度掩码目标进行额外预训练，最后在Natural Questions (NQ)上进行微调。
全量数据微调：模型在Natural Questions (NQ)的全部训练分割数据上进行了10000步的微调。
性能表现：在自然问题测试集上，不同规模的T5模型都展现出了良好的精确匹配性能，随着模型规模的增大，性能也有所提升。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-11b-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-11b-ssm-nq")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

📚 详细文档

模型信息

属性	详情
模型类型	Google的T5用于闭卷问答
训练数据	C4、Wikipedia、Natural Questions (NQ)

自然问题测试集结果

编号	链接	精确匹配率
T5-small	https://huggingface.co/google/t5-small-ssm-nq	25.5
T5-large	https://huggingface.co/google/t5-large-ssm-nq	30.4
T5-xl	https://huggingface.co/google/t5-xl-ssm-nq	35.6
T5-xxl	https://huggingface.co/google/t5-xxl-ssm-nq	37.9
T5-3b	https://huggingface.co/google/t5-3b-ssm-nq	33.2
T5-11b	https://huggingface.co/google/t5-11b-ssm-nq	36.6

摘要

近期研究发现，在非结构化文本上训练的神经语言模型可以使用自然语言查询隐式地存储和检索知识。在这篇简短的论文中，我们通过微调预训练模型在不访问任何外部上下文或知识的情况下回答问题，来衡量这种方法的实际效用。我们表明，这种方法随着模型规模的增大而表现更好，并且在回答问题时与从外部知识源显式检索答案的开放域系统具有竞争力。为了便于复现和未来研究，我们在https://goo.gle/t5-cbqa 上发布了我们的代码和训练好的模型。

模型图片