🚀 BigBird基礎問答模型
本模型是bigbird-roberta-base
的微調檢查點,使用BigBirdForQuestionAnsweringHead
在trivia_qa
數據集上進行了微調。
點擊此處查看google/bigbird-base-trivia-itc
在問答任務上的表現。
🚀 快速開始
✨ 主要特性
該模型基於bigbird-roberta-base
進行微調,適用於問答任務,並且可以通過調整不同的參數(如attention_type
、block_size
和num_random_blocks
)來改變模型的注意力機制和性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考transformers
庫的官方安裝指南來安裝所需依賴。
💻 使用示例
基礎用法
以下是如何在PyTorch中使用該模型獲取給定文本特徵的示例代碼:
from transformers import BigBirdForQuestionAnswering
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc")
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", attention_type="original_full")
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", block_size=16, num_random_blocks=2)
question = "Replace me by any text you'd like."
context = "Put some context for answering"
encoded_input = tokenizer(question, context, return_tensors='pt')
output = model(**encoded_input)
📚 詳細文檔
微調配置與超參數
- 全局標記數量 = 128
- 窗口長度 = 192
- 隨機標記數量 = 192
- 最大序列長度 = 4096
- 頭的數量 = 12
- 隱藏層數量 = 12
- 隱藏層大小 = 768
- 批量大小 = 32
- 損失函數 = 交叉熵噪聲跨度
🔧 技術細節
該模型基於bigbird-roberta-base
進行微調,使用BigBirdForQuestionAnsweringHead
在trivia_qa
數據集上進行訓練。通過調整不同的注意力機制(如block_sparse
和original_full
)和參數(如block_size
和num_random_blocks
),可以在不同的計算資源和任務需求下獲得更好的性能。
📄 許可證
本項目採用Apache 2.0許可證。
📚 引用信息
如果你在研究中使用了該模型,請使用以下BibTeX條目進行引用:
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}