🚀 Google T5 閉卷問答模型
本項目使用 Google's T5 實現閉卷問答功能。該模型能夠在不借助外部知識源的情況下,直接回答問題,為自然語言處理領域的問答任務提供了新的解決方案。
🚀 快速開始
該模型可按以下方式用於閉卷問答:
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-xl-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-xl-ssm-nq")
input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]
print(t5_tok.decode(gen_output, skip_special_tokens=True))
✨ 主要特性
- 多階段訓練:模型先在 C4 上使用 T5 的去噪目標進行預訓練,接著在 Wikipedia 上使用 REALM 的顯著跨度掩碼目標進行額外預訓練,最後在 Natural Questions (NQ) 上進行微調。
- 知識存儲與檢索:經過訓練的模型能夠在參數中隱式存儲知識,並通過自然語言查詢進行檢索,實現閉卷問答。
- 規模效應:實驗表明,這種閉卷問答的方法隨著模型規模的增大而表現更好。
📚 詳細文檔
訓練數據
屬性 |
詳情 |
模型類型 |
基於 Google's T5 的閉卷問答模型 |
訓練數據 |
C4、Wikipedia、Natural Questions |
訓練細節
模型在 Natural Questions (NQ) 的 100% 訓練分割數據上進行了 10k 步的微調。
其他社區檢查點
可在 這裡 查看其他社區檢查點。
相關論文
How Much Knowledge Can You Pack Into the Parameters of a Language Model?
作者
Adam Roberts, Colin Raffel, Noam Shazeer
自然問題測試集結果
模型 |
鏈接 |
完全匹配率 |
T5-small |
https://huggingface.co/google/t5-small-ssm-nq |
25.5 |
T5-large |
https://huggingface.co/google/t5-large-ssm-nq |
30.4 |
T5-xl |
https://huggingface.co/google/t5-xl-ssm-nq |
35.6 |
T5-xxl |
https://huggingface.co/google/t5-xxl-ssm-nq |
37.9 |
T5-3b |
https://huggingface.co/google/t5-3b-ssm-nq |
33.2 |
T5-11b |
https://huggingface.co/google/t5-11b-ssm-nq |
36.6 |
模型抽象概述
近期研究發現,在非結構化文本上訓練的神經語言模型可以使用自然語言查詢隱式地存儲和檢索知識。在這篇簡短的論文中,我們通過微調預訓練模型來回答問題,且不訪問任何外部上下文或知識,以此衡量這種方法的實際效用。我們表明,這種方法隨著模型規模的增大而表現更好,並且在回答問題時,與從外部知識源顯式檢索答案的開放域系統具有競爭力。為了便於復現和未來的研究,我們在 https://goo.gle/t5-cbqa 上發佈了我們的代碼和訓練好的模型。

📄 許可證
本項目採用 Apache-2.0 許可證。