T5-11b-ssm-nq開源大模型 - 免費部署實現閉卷問答功能

首頁

T5 11b Ssm Nq

由google開發

T5-11b-ssm-nq是基於T5架構的大型語言模型，專門用於閉卷問答任務。該模型通過預訓練和微調，能夠在沒有外部知識源的情況下回答問題。

問答系統

Transformers

英語開源協議:Apache-2.0 #閉卷問答 #大規模預訓練 #知識壓縮

下載量 14

發布時間 : 3/2/2022

模型概述

T5-11b-ssm-nq是一個文本到文本生成模型，主要用於閉卷問答任務。它通過預訓練和微調，能夠在沒有外部知識源的情況下回答問題。

模型特點

閉卷問答

模型能夠在沒有外部知識源的情況下回答問題，隱式存儲和檢索知識。

大規模預訓練

模型在C4和維基百科數據集上進行了預訓練，增強了知識存儲和檢索能力。

高性能

模型在自然問題測試集上表現出色，精確匹配率達到36.6%。

模型能力

文本生成

閉卷問答

知識檢索

使用案例

問答系統

自然問題回答

回答自然語言問題，無需外部知識源。

在自然問題測試集上精確匹配率達到36.6%。

🚀 [Google的T5 - 閉卷問答模型]

本項目基於Google的T5模型，用於閉卷問答任務。該模型通過在多個大型數據集上進行預訓練和微調，能夠在不借助外部知識源的情況下回答問題，為自然語言處理領域的知識問答提供了有效的解決方案。

🚀 快速開始

本模型可按如下方式用於閉卷問答：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-11b-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-11b-ssm-nq")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

✨ 主要特性

多階段訓練：模型首先在C4上使用T5的去噪目標進行預訓練，接著在Wikipedia上使用REALM的顯著跨度掩碼目標進行額外預訓練，最後在Natural Questions (NQ)上進行微調。
全量數據微調：模型在Natural Questions (NQ)的全部訓練分割數據上進行了10000步的微調。
性能表現：在自然問題測試集上，不同規模的T5模型都展現出了良好的精確匹配性能，隨著模型規模的增大，性能也有所提升。

📦 安裝指南

文檔中未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-11b-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-11b-ssm-nq")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

📚 詳細文檔

模型信息

屬性	詳情
模型類型	Google的T5用於閉卷問答
訓練數據	C4、Wikipedia、Natural Questions (NQ)

自然問題測試集結果

編號	鏈接	精確匹配率
T5-small	https://huggingface.co/google/t5-small-ssm-nq	25.5
T5-large	https://huggingface.co/google/t5-large-ssm-nq	30.4
T5-xl	https://huggingface.co/google/t5-xl-ssm-nq	35.6
T5-xxl	https://huggingface.co/google/t5-xxl-ssm-nq	37.9
T5-3b	https://huggingface.co/google/t5-3b-ssm-nq	33.2
T5-11b	https://huggingface.co/google/t5-11b-ssm-nq	36.6

摘要

近期研究發現，在非結構化文本上訓練的神經語言模型可以使用自然語言查詢隱式地存儲和檢索知識。在這篇簡短的論文中，我們通過微調預訓練模型在不訪問任何外部上下文或知識的情況下回答問題，來衡量這種方法的實際效用。我們表明，這種方法隨著模型規模的增大而表現更好，並且在回答問題時與從外部知識源顯式檢索答案的開放域系統具有競爭力。為了便於復現和未來研究，我們在https://goo.gle/t5-cbqa 上發佈了我們的代碼和訓練好的模型。

模型圖片