bigbird-base-trivia-itc开源问答模型 - 优化trivia问答，支持长序列处理

首页

Bigbird Base Trivia Itc

由 google 开发

基于bigbird-roberta-base的微调模型，专为trivia问答任务优化，支持长序列处理。

问答系统英语开源协议:Apache-2.0 #长序列问答 #稀疏注意力 #知识问答

下载量 1,049

发布时间 : 3/2/2022

模型简介

该模型是基于BigBird架构的问答模型，通过在trivia_qa数据集上微调而成，特别适合处理需要长上下文理解的问答任务。

模型特点

长序列处理能力

支持最大4096的序列长度，适合处理长文本问答任务。

灵活的注意力机制

支持block_sparse和original_full两种注意力模式，可根据需求调整。

高效计算

通过随机token和窗口化注意力机制实现高效计算。

模型能力

文本问答

长文本理解

事实检索

使用案例

知识问答

百科知识问答

回答基于百科知识的各类问题

在trivia_qa数据集上表现良好

事实核查

从长文本中提取事实信息进行验证

🚀 BigBird基础问答模型

本模型是bigbird-roberta-base的微调检查点，使用BigBirdForQuestionAnsweringHead在trivia_qa数据集上进行了微调。

点击此处查看google/bigbird-base-trivia-itc在问答任务上的表现。

🚀 快速开始

✨ 主要特性

该模型基于bigbird-roberta-base进行微调，适用于问答任务，并且可以通过调整不同的参数（如attention_type、block_size和num_random_blocks）来改变模型的注意力机制和性能。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方安装指南来安装所需依赖。

💻 使用示例

基础用法

以下是如何在PyTorch中使用该模型获取给定文本特征的示例代码：

from transformers import BigBirdForQuestionAnswering

# 默认情况下，模型处于`block_sparse`模式，num_random_blocks=3，block_size=64
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc")

# 你可以将`attention_type`更改为全注意力模式，如下所示：
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", attention_type="original_full")

# 你可以像这样更改`block_size`和`num_random_blocks`：
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", block_size=16, num_random_blocks=2)

question = "Replace me by any text you'd like."
context = "Put some context for answering"
encoded_input = tokenizer(question, context, return_tensors='pt')
output = model(**encoded_input)

📚 详细文档

微调配置与超参数

全局标记数量 = 128
窗口长度 = 192
随机标记数量 = 192
最大序列长度 = 4096
头的数量 = 12
隐藏层数量 = 12
隐藏层大小 = 768
批量大小 = 32
损失函数 = 交叉熵噪声跨度

🔧 技术细节

该模型基于bigbird-roberta-base进行微调，使用BigBirdForQuestionAnsweringHead在trivia_qa数据集上进行训练。通过调整不同的注意力机制（如block_sparse和original_full）和参数（如block_size和num_random_blocks），可以在不同的计算资源和任务需求下获得更好的性能。

📄 许可证

本项目采用Apache 2.0许可证。

📚 引用信息

如果你在研究中使用了该模型，请使用以下BibTeX条目进行引用：

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}