🚀 BigBird基础问答模型
本模型是bigbird-roberta-base
的微调检查点,使用BigBirdForQuestionAnsweringHead
在trivia_qa
数据集上进行了微调。
点击此处查看google/bigbird-base-trivia-itc
在问答任务上的表现。
🚀 快速开始
✨ 主要特性
该模型基于bigbird-roberta-base
进行微调,适用于问答任务,并且可以通过调整不同的参数(如attention_type
、block_size
和num_random_blocks
)来改变模型的注意力机制和性能。
📦 安装指南
文档未提及具体安装步骤,可参考transformers
库的官方安装指南来安装所需依赖。
💻 使用示例
基础用法
以下是如何在PyTorch中使用该模型获取给定文本特征的示例代码:
from transformers import BigBirdForQuestionAnswering
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc")
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", attention_type="original_full")
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", block_size=16, num_random_blocks=2)
question = "Replace me by any text you'd like."
context = "Put some context for answering"
encoded_input = tokenizer(question, context, return_tensors='pt')
output = model(**encoded_input)
📚 详细文档
微调配置与超参数
- 全局标记数量 = 128
- 窗口长度 = 192
- 随机标记数量 = 192
- 最大序列长度 = 4096
- 头的数量 = 12
- 隐藏层数量 = 12
- 隐藏层大小 = 768
- 批量大小 = 32
- 损失函数 = 交叉熵噪声跨度
🔧 技术细节
该模型基于bigbird-roberta-base
进行微调,使用BigBirdForQuestionAnsweringHead
在trivia_qa
数据集上进行训练。通过调整不同的注意力机制(如block_sparse
和original_full
)和参数(如block_size
和num_random_blocks
),可以在不同的计算资源和任务需求下获得更好的性能。
📄 许可证
本项目采用Apache 2.0许可证。
📚 引用信息
如果你在研究中使用了该模型,请使用以下BibTeX条目进行引用:
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}