模型概述
模型特點
模型能力
使用案例
語言:
- 英語
- 法語
- 羅馬尼亞語
- 德語
- 多語言
標籤:
- 文本生成文本
小部件示例:
- 文本: "翻譯成德語: 我的名字是亞瑟" 示例標題: "翻譯"
- 文本: "請回答以下問題。誰將成為下一位金球獎得主?" 示例標題: "問答"
- 文本: "問: 傑弗裡·辛頓能和喬治·華盛頓對話嗎?回答前請給出理由。" 示例標題: "邏輯推理"
- 文本: "請回答以下問題。氮的沸點是多少?" 示例標題: "科學知識"
- 文本: "回答以下是非問題。你能在一條推文中寫完整首俳句嗎?" 示例標題: "是非題"
- 文本: "通過逐步推理回答以下是非問題。你能在一條推文中寫完整首俳句嗎?" 示例標題: "推理任務"
- 文本: "問: (假 或 非假 或 假) 的結果是?答: 讓我們逐步思考" 示例標題: "布爾表達式"
- 文本: "x的平方根是y的立方根。如果x=4,y的平方是多少?" 示例標題: "數學推理"
- 文本: "前提: 在我這個年紀你可能已經學會了一個教訓。假設: 三十歲前你會學到多少教訓並不確定。前提是否蘊含假設?" 示例標題: "前提與假設"
數據集:
- svakulenk0/qrecc
- taskmaster2
- djaym7/wiki_dialog
- deepmind/code_contests
- lambada
- gsm8k
- aqua_rat
- esnli
- quasc
- qed
許可證: Apache-2.0
FLAN-T5小模型卡
目錄
摘要
如果您已瞭解T5,那麼FLAN-T5在各方面表現更優。相同參數量的模型通過1000多項額外任務進行了微調,涵蓋更多語言。如摘要開篇所述:
Flan-PaLM 540B在多個基準測試中達到最先進水平,例如MMLU五樣本準確率75.2%。我們還公開了Flan-T5的檢查點,即使與PaLM 62B等更大模型相比,其少樣本表現依然強勁。總體而言,指令微調是提升預訓練語言模型性能和可用性的通用方法。
免責聲明:本模型卡內容由Hugging Face團隊撰寫,部分內容複製自T5模型卡。
模型詳情
模型描述
- 模型類型: 語言模型
- 支持語言(NLP): 英語、西班牙語、日語、波斯語、印地語、法語、中文、孟加拉語、古吉拉特語、德語、泰盧固語、意大利語、阿拉伯語、波蘭語、泰米爾語、馬拉地語、馬拉雅拉姆語、奧里亞語、旁遮普語、葡萄牙語、烏爾都語、加利西亞語、希伯來語、韓語、加泰羅尼亞語、泰語、荷蘭語、印尼語、越南語、保加利亞語、菲律賓語、高棉語、老撾語、土耳其語、俄語、克羅地亞語、瑞典語、約魯巴語、庫爾德語、緬甸語、馬來語、捷克語、芬蘭語、索馬里語、他加祿語、斯瓦希里語、僧伽羅語、卡納達語、壯語、伊博語、科薩語、羅馬尼亞語、海地語、愛沙尼亞語、斯洛伐克語、立陶宛語、希臘語、尼泊爾語、阿薩姆語、挪威語
- 許可證: Apache 2.0
- 相關模型: 所有FLAN-T5檢查點
- 原始檢查點: 原始FLAN-T5檢查點
- 更多資源:
使用方式
以下是transformers
庫的使用示例腳本:
使用PyTorch模型
CPU運行
點擊展開
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small")
input_text = "翻譯英語到德語: 你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPU運行
點擊展開
# 需安裝accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto")
input_text = "翻譯英語到德語: 你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
不同精度下的GPU運行
FP16精度
點擊展開
# 需安裝accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", torch_dtype=torch.float16)
input_text = "翻譯英語到德語: 你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8精度
點擊展開
# 需安裝bitsandbytes和accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", load_in_8bit=True)
input_text = "翻譯英語到德語: 你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
用途
直接使用與下游應用
原論文模型卡中寫道:
主要用途是語言模型研究,包括:零樣本NLP任務和上下文少樣本學習NLP任務研究,如推理和問答;推進公平性與安全性研究,理解當前大語言模型的侷限性。
詳見研究論文。
超範圍使用
需要更多信息。
偏見、風險與限制
本節信息複製自模型官方模型卡:
包括Flan-T5在內的語言模型可能被用於有害內容生成(Rae等,2021)。Flan-T5不應直接用於任何應用,需事先評估特定應用的安全性和公平性。
倫理考量與風險
Flan-T5微調的大規模文本數據未經過明確內容過濾或偏見評估。因此模型可能生成不當內容或反映底層數據中的固有偏見。
已知限制
Flan-T5尚未在真實世界應用中測試。
敏感用途
Flan-T5不可用於任何不可接受的場景,如生成侮辱性言論。
訓練詳情
訓練數據
模型在混合任務上訓練,包括下表中的任務(源自原論文圖2):
訓練過程
根據原論文模型卡:
這些模型基於預訓練T5(Raffel等,2020),通過指令微調提升零樣本和少樣本性能。每個T5模型尺寸對應一個Flan微調模型。
模型使用t5x
代碼庫和jax
在TPU v3/v4 pod上訓練。
評估
測試數據、因素與指標
作者在1836項跨語言任務上評估模型。部分定量評估見下表:
完整細節詳見研究論文。
結果
FLAN-T5-Small完整結果見研究論文表3。
環境影響
碳排放估算可參考Lacoste等(2019)提出的機器學習影響計算器。
- 硬件類型: Google Cloud TPU Pods - TPU v3/v4 | 芯片數≥4
- 使用時長: 需更多信息
- 雲服務商: GCP
- 計算區域: 需更多信息
- 碳排放量: 需更多信息
引用
BibTeX格式:
@misc{https://doi.org/10.48550/arxiv.2210.11416,
doi = {10.48550/ARXIV.2210.11416},
url = {https://arxiv.org/abs/2210.11416},
author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
keywords = {機器學習(cs.LG), 計算與語言(cs.CL), FOS: 計算機與信息科學, FOS: 計算機與信息科學},
title = {擴展指令微調語言模型},
publisher = {arXiv},
year = {2022},
copyright = {知識共享署名4.0國際許可}
}



