Flan T5 Large
FLAN-T5是基於T5改進的指令微調語言模型,支持60+種語言,在相同參數量下通過1000+任務微調實現更強性能
下載量 589.25k
發布時間 : 10/21/2022
模型概述
一個經過廣泛指令微調的多語言文本生成模型,適用於多種NLP任務
模型特點
多任務指令微調
在1000+多樣化任務上進行微調,增強模型泛化能力
多語言支持
支持60餘種語言處理,包括主要歐洲和亞洲語言
小樣本學習能力
在少樣本場景下仍能保持優異性能
開源可用
提供Apache-2.0許可的模型檢查點
模型能力
文本生成
多語言翻譯
邏輯推理
問答系統
科學知識解答
數學計算
前提假設分析
使用案例
教育研究
語言學習輔助
用於多語言翻譯和學習輔助
支持60+語言互譯
學術問答
回答科學知識相關問題
可準確回答氮沸點等科學問題
商業應用
客服機器人
構建多語言客服問答系統
能處理複雜邏輯推理問題
🚀 FLAN - T5 large模型卡片
FLAN - T5 large是基於預訓練T5模型進行微調的語言模型,在超過1000個額外任務上進行了微調,覆蓋更多語言,能在零樣本和少樣本任務中表現出色,可用於語言研究、推理、問答等場景。
🚀 快速開始
模型使用示例
在transformers
庫中使用該模型的示例腳本如下:
使用PyTorch模型
在CPU上運行模型
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上運行模型
# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上使用不同精度運行模型
FP16
# pip install accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto", torch_dtype=torch.float16)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
# pip install bitsandbytes accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto", load_in_8bit=True)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 多語言支持:支持英語、西班牙語、日語、波斯語、印地語等多種語言。
- 任務多樣性:可用於文本到文本生成任務,如翻譯、問答、邏輯推理、科學知識問答等。
- 少樣本和零樣本性能:基於預訓練T5模型微調,在零樣本和少樣本任務中表現出色。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face的transformers庫安裝說明來安裝所需依賴。
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
模型類型 | 語言模型 |
支持語言 (NLP) | 英語、西班牙語、日語、波斯語、印地語、法語、中文、孟加拉語、古吉拉特語、德語、泰盧固語、意大利語、阿拉伯語、波蘭語、泰米爾語、馬拉地語、馬拉雅拉姆語、奧里亞語、旁遮普語、葡萄牙語、烏爾都語、加利西亞語、希伯來語、韓語、加泰羅尼亞語、泰語、荷蘭語、印尼語、越南語、保加利亞語、菲律賓語、高棉語、老撾語、土耳其語、俄語、克羅地亞語、瑞典語、約魯巴語、庫爾德語、緬甸語、馬來語、捷克語、芬蘭語、索馬里語、他加祿語、斯瓦希里語、僧伽羅語、卡納達語、壯語、伊博語、科薩語、羅馬尼亞語、海地語、愛沙尼亞語、斯洛伐克語、立陶宛語、希臘語、尼泊爾語、阿薩姆語、挪威語 |
許可證 | Apache - 2.0 |
相關模型 | 所有FLAN - T5檢查點 |
原始檢查點 | 所有原始FLAN - T5檢查點 |
更多信息資源 | 研究論文、GitHub倉庫、Hugging Face FLAN - T5文檔 (類似於T5) |
應用場景
直接使用和下游使用
該模型主要用於語言模型研究,包括零樣本NLP任務和上下文少樣本學習NLP任務,如推理和問答;推動公平性和安全性研究,以及瞭解當前大語言模型的侷限性。詳情可參考研究論文。
超出適用範圍的使用
需要更多信息。
偏差、風險和侷限性
倫理考量和風險
FLAN - T5在未對明確內容進行過濾或對現有偏差進行評估的大量文本數據語料庫上進行微調。因此,該模型本身可能容易生成同樣不適當的內容或複製基礎數據中固有的偏差。
已知侷限性
FLAN - T5尚未在現實世界應用中進行測試。
敏感使用
FLAN - T5不應應用於任何不可接受的用例,例如生成辱罵性言論。
訓練詳情
訓練數據
該模型在多種任務的混合數據上進行訓練,包括原論文圖2中描述的任務:
訓練過程
這些模型基於預訓練的T5(Raffel等人,2020),並使用指令進行微調,以獲得更好的零樣本和少樣本性能。每個T5模型大小對應一個微調後的Flan模型。該模型在TPU v3或TPU v4 pod上使用t5x
代碼庫和jax
進行訓練。
評估
測試數據、因素和指標
作者在涵蓋多種語言(總共1836種)的各種任務上對模型進行了評估。定量評估如下:
完整詳情請查看研究論文。
評估結果
FLAN - T5 - Large的完整評估結果請查看研究論文中的表3。
環境影響
可以使用機器學習影響計算器(來自Lacoste等人(2019))來估算碳排放。
屬性 | 詳情 |
---|---|
硬件類型 | Google Cloud TPU Pods - TPU v3或TPU v4,芯片數量 ≥ 4 |
使用時長 | 需要更多信息 |
雲服務提供商 | GCP |
計算區域 | 需要更多信息 |
碳排放 | 需要更多信息 |
引用
@misc{https://doi.org/10.48550/arxiv.2210.11416,
doi = {10.48550/ARXIV.2210.11416},
url = {https://arxiv.org/abs/2210.11416},
author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Scaling Instruction-Finetuned Language Models},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
📄 許可證
本模型使用的許可證為Apache - 2.0。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98