bigbird-base-trivia-itc開源問答模型 - 優化trivia問答，支持長序列處理

首頁

Bigbird Base Trivia Itc

由google開發

基於bigbird-roberta-base的微調模型，專為trivia問答任務優化，支持長序列處理。

問答系統英語開源協議:Apache-2.0 #長序列問答 #稀疏注意力 #知識問答

下載量 1,049

發布時間 : 3/2/2022

模型概述

該模型是基於BigBird架構的問答模型，通過在trivia_qa數據集上微調而成，特別適合處理需要長上下文理解的問答任務。

模型特點

長序列處理能力

支持最大4096的序列長度，適合處理長文本問答任務。

靈活的注意力機制

支持block_sparse和original_full兩種注意力模式，可根據需求調整。

高效計算

通過隨機token和窗口化注意力機制實現高效計算。

模型能力

文本問答

長文本理解

事實檢索

使用案例

知識問答

百科知識問答

回答基於百科知識的各類問題

在trivia_qa數據集上表現良好

事實核查

從長文本中提取事實信息進行驗證

🚀 BigBird基礎問答模型

本模型是bigbird-roberta-base的微調檢查點，使用BigBirdForQuestionAnsweringHead在trivia_qa數據集上進行了微調。

點擊此處查看google/bigbird-base-trivia-itc在問答任務上的表現。

🚀 快速開始

✨ 主要特性

該模型基於bigbird-roberta-base進行微調，適用於問答任務，並且可以通過調整不同的參數（如attention_type、block_size和num_random_blocks）來改變模型的注意力機制和性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的官方安裝指南來安裝所需依賴。

💻 使用示例

基礎用法

以下是如何在PyTorch中使用該模型獲取給定文本特徵的示例代碼：

from transformers import BigBirdForQuestionAnswering

# 默認情況下，模型處於`block_sparse`模式，num_random_blocks=3，block_size=64
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc")

# 你可以將`attention_type`更改為全注意力模式，如下所示：
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", attention_type="original_full")

# 你可以像這樣更改`block_size`和`num_random_blocks`：
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-base-trivia-itc", block_size=16, num_random_blocks=2)

question = "Replace me by any text you'd like."
context = "Put some context for answering"
encoded_input = tokenizer(question, context, return_tensors='pt')
output = model(**encoded_input)

📚 詳細文檔

微調配置與超參數

全局標記數量 = 128
窗口長度 = 192
隨機標記數量 = 192
最大序列長度 = 4096
頭的數量 = 12
隱藏層數量 = 12
隱藏層大小 = 768
批量大小 = 32
損失函數 = 交叉熵噪聲跨度

🔧 技術細節

該模型基於bigbird-roberta-base進行微調，使用BigBirdForQuestionAnsweringHead在trivia_qa數據集上進行訓練。通過調整不同的注意力機制（如block_sparse和original_full）和參數（如block_size和num_random_blocks），可以在不同的計算資源和任務需求下獲得更好的性能。

📄 許可證

本項目採用Apache 2.0許可證。

📚 引用信息

如果你在研究中使用了該模型，請使用以下BibTeX條目進行引用：

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}