long-t5-local-large开源文本生成模型 - 高效处理长序列输入完成文本生成

首页

Long T5 Local Large

由 google 开发

长T5是基于T5扩展的文本到文本Transformer模型，支持高效处理长序列输入，特别适用于文本生成任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #长序列处理 #文本生成 #高效注意力

下载量 177

发布时间 : 4/14/2022

模型简介

长T5模型是在英文语料上进行预训练的文本到文本Transformer模型，通过局部注意力或瞬态全局注意力机制高效处理长序列输入，适用于摘要生成、问答等任务。

模型特点

高效处理长序列

借助局部注意力或瞬态全局注意力机制，能够高效处理长输入序列（最多可达16,384个词元）。

文本生成能力强

在文本生成任务（如摘要生成、问答）上表现出色。

模型能力

文本生成

长序列处理

摘要生成

问答

使用案例

文本生成

摘要生成

对长文档进行内容摘要

能够高效处理长输入序列并生成准确摘要

问答系统

基于长文档内容回答问题

能够理解长文档上下文并提供准确答案

🚀 长T5模型（局部注意力，大型模型）

长T5模型是在英文语料上进行预训练的模型。该模型由Guo等人在论文《LongT5: 适用于长序列的高效文本到文本Transformer》中提出，并首次在长T5仓库中发布。所有的模型架构和配置信息都可以在Flaxformer仓库中找到，该仓库使用了另一个谷歌研究项目仓库T5x。

免责声明：发布长T5的团队并未为该模型撰写模型卡片，因此此模型卡片由Hugging Face团队撰写。

🚀 快速开始

长T5模型是一个基于编码器 - 解码器架构的Transformer模型，在文本到文本的去噪生成设置中进行预训练（类似Pegasus的生成式预训练）。它是T5模型的扩展，支持使用两种不同的高效注意力机制之一：（1）局部注意力，或（2）瞬态全局注意力。通过使用注意力稀疏模式，该模型能够高效地处理输入序列。

长T5在针对文本生成任务（如摘要生成、问答）进行微调时特别有效，这些任务需要处理长输入序列（最多可达16,384个词元）。

✨ 主要特性

高效处理长序列：借助局部注意力或瞬态全局注意力机制，能够高效处理长输入序列。
文本生成能力强：在文本生成任务（如摘要生成、问答）上表现出色。

📦 安装指南

暂未提及具体安装命令，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-large")
model = LongT5Model.from_pretrained("google/long-t5-local-large")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

高级用法

暂未提供高级用法示例，跳过此部分。

📚 详细文档

该模型主要用于在有监督的数据集上进行微调。你可以访问模型中心，查找针对你感兴趣的任务进行微调后的版本。

🔧 技术细节

长T5模型是在文本到文本的去噪生成设置中进行预训练的，它是T5模型的扩展，支持使用局部注意力或瞬态全局注意力机制。这些注意力机制的稀疏模式使得模型能够高效地处理输入序列，特别是在处理长输入序列时表现出色。

📄 许可证

本模型采用Apache 2.0许可证。

BibTeX条目和引用信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}