首頁

Flan T5 Small

由google開發

FLAN-T5是T5模型的指令微調版本，在1000多個額外任務上進行了微調，支持多種語言，性能優於原始T5。

大型語言模型支持多種語言開源協議:Apache-2.0 #多任務指令微調 #多語言翻譯 #零樣本推理

下載量 587.92k

發布時間 : 10/21/2022

模型概述

FLAN-T5是基於T5架構的指令微調語言模型，通過大規模多任務學習提升了零樣本和少樣本性能，適用於多種NLP任務。

模型特點

多任務指令微調

在1000多個不同任務上進行微調，顯著提升零樣本和少樣本學習能力

多語言支持

支持60多種語言的處理和生成能力

高效推理

小型版本適合資源有限環境下的部署和使用

模型能力

文本生成

多語言翻譯

問答系統

邏輯推理

科學知識解答

數學計算

文本摘要

使用案例

語言處理

機器翻譯

支持多種語言間的文本翻譯

高質量翻譯結果，如英語到德語的翻譯

問答系統

回答各種領域的知識性問題

準確回答科學、歷史等領域問題

教育輔助

數學問題解答

解決數學推理和計算問題

逐步推理解決複雜數學問題

語言:

英語
法語
羅馬尼亞語
德語
多語言

標籤:

文本生成文本

小部件示例:

文本: "翻譯成德語: 我的名字是亞瑟" 示例標題: "翻譯"
文本: "請回答以下問題。誰將成為下一位金球獎得主？" 示例標題: "問答"
文本: "問: 傑弗裡·辛頓能和喬治·華盛頓對話嗎？回答前請給出理由。" 示例標題: "邏輯推理"
文本: "請回答以下問題。氮的沸點是多少？" 示例標題: "科學知識"
文本: "回答以下是非問題。你能在一條推文中寫完整首俳句嗎？" 示例標題: "是非題"
文本: "通過逐步推理回答以下是非問題。你能在一條推文中寫完整首俳句嗎？" 示例標題: "推理任務"
文本: "問: (假或非假或假) 的結果是？答: 讓我們逐步思考" 示例標題: "布爾表達式"
文本: "x的平方根是y的立方根。如果x=4，y的平方是多少？" 示例標題: "數學推理"
文本: "前提: 在我這個年紀你可能已經學會了一個教訓。假設: 三十歲前你會學到多少教訓並不確定。前提是否蘊含假設？" 示例標題: "前提與假設"

數據集:

svakulenk0/qrecc
taskmaster2
djaym7/wiki_dialog
deepmind/code_contests
lambada
gsm8k
aqua_rat
esnli
quasc
qed

許可證: Apache-2.0

FLAN-T5小模型卡

架構圖

摘要

如果您已瞭解T5，那麼FLAN-T5在各方面表現更優。相同參數量的模型通過1000多項額外任務進行了微調，涵蓋更多語言。如摘要開篇所述：

Flan-PaLM 540B在多個基準測試中達到最先進水平，例如MMLU五樣本準確率75.2%。我們還公開了Flan-T5的檢查點，即使與PaLM 62B等更大模型相比，其少樣本表現依然強勁。總體而言，指令微調是提升預訓練語言模型性能和可用性的通用方法。

免責聲明：本模型卡內容由Hugging Face團隊撰寫，部分內容複製自T5模型卡。

模型詳情

模型描述

模型類型: 語言模型
支持語言(NLP): 英語、西班牙語、日語、波斯語、印地語、法語、中文、孟加拉語、古吉拉特語、德語、泰盧固語、意大利語、阿拉伯語、波蘭語、泰米爾語、馬拉地語、馬拉雅拉姆語、奧里亞語、旁遮普語、葡萄牙語、烏爾都語、加利西亞語、希伯來語、韓語、加泰羅尼亞語、泰語、荷蘭語、印尼語、越南語、保加利亞語、菲律賓語、高棉語、老撾語、土耳其語、俄語、克羅地亞語、瑞典語、約魯巴語、庫爾德語、緬甸語、馬來語、捷克語、芬蘭語、索馬里語、他加祿語、斯瓦希里語、僧伽羅語、卡納達語、壯語、伊博語、科薩語、羅馬尼亞語、海地語、愛沙尼亞語、斯洛伐克語、立陶宛語、希臘語、尼泊爾語、阿薩姆語、挪威語
許可證: Apache 2.0
相關模型: 所有FLAN-T5檢查點
原始檢查點: 原始FLAN-T5檢查點
更多資源:

使用方式

以下是transformers庫的使用示例腳本：

使用PyTorch模型

CPU運行

點擊展開

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small")

input_text = "翻譯英語到德語: 你多大了？"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

GPU運行

點擊展開

# 需安裝accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto")

input_text = "翻譯英語到德語: 你多大了？"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

不同精度下的GPU運行

FP16精度

點擊展開

# 需安裝accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", torch_dtype=torch.float16)

input_text = "翻譯英語到德語: 你多大了？"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8精度

點擊展開

# 需安裝bitsandbytes和accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", load_in_8bit=True)

input_text = "翻譯英語到德語: 你多大了？"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

用途

直接使用與下游應用

原論文模型卡中寫道：

主要用途是語言模型研究，包括：零樣本NLP任務和上下文少樣本學習NLP任務研究，如推理和問答；推進公平性與安全性研究，理解當前大語言模型的侷限性。

詳見研究論文。

超範圍使用

需要更多信息。

偏見、風險與限制

本節信息複製自模型官方模型卡:

包括Flan-T5在內的語言模型可能被用於有害內容生成(Rae等，2021)。Flan-T5不應直接用於任何應用，需事先評估特定應用的安全性和公平性。

倫理考量與風險

Flan-T5微調的大規模文本數據未經過明確內容過濾或偏見評估。因此模型可能生成不當內容或反映底層數據中的固有偏見。

已知限制

Flan-T5尚未在真實世界應用中測試。

敏感用途

Flan-T5不可用於任何不可接受的場景，如生成侮辱性言論。

訓練詳情

訓練數據

模型在混合任務上訓練，包括下表中的任務(源自原論文圖2): 任務表

訓練過程

根據原論文模型卡:

這些模型基於預訓練T5(Raffel等，2020)，通過指令微調提升零樣本和少樣本性能。每個T5模型尺寸對應一個Flan微調模型。

模型使用t5x代碼庫和jax在TPU v3/v4 pod上訓練。

評估

測試數據、因素與指標

作者在1836項跨語言任務上評估模型。部分定量評估見下表: 評估表完整細節詳見研究論文。

結果

FLAN-T5-Small完整結果見研究論文表3。

環境影響

碳排放估算可參考Lacoste等(2019)提出的機器學習影響計算器。

硬件類型: Google Cloud TPU Pods - TPU v3/v4 | 芯片數≥4
使用時長: 需更多信息
雲服務商: GCP
計算區域: 需更多信息
碳排放量: 需更多信息

引用

BibTeX格式:

@misc{https://doi.org/10.48550/arxiv.2210.11416,
  doi = {10.48550/ARXIV.2210.11416},
  url = {https://arxiv.org/abs/2210.11416},
  author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
  keywords = {機器學習(cs.LG), 計算與語言(cs.CL), FOS: 計算機與信息科學, FOS: 計算機與信息科學},
  title = {擴展指令微調語言模型},
  publisher = {arXiv},
  year = {2022},
  copyright = {知識共享署名4.0國際許可}
}