Bloomz P3
BLOOMZ-P3是基於BLOOM預訓練模型的多語言指令微調模型,能夠理解和執行數十種語言的人類指令。
下載量 39
發布時間 : 9/17/2022
模型概述
該模型通過多任務微調實現跨語言泛化,適用於自然語言理解和生成任務,支持多種語言和編程語言。
模型特點
多語言支持
支持46種人類語言和13種編程語言的理解和生成
跨語言泛化
通過多任務微調實現未見任務和語言的跨語言泛化能力
指令理解
能夠理解和執行自然語言表達的指令任務
模型能力
文本生成
情感分析
語言翻譯
問答系統
代碼生成
故事創作
關鍵詞提取
跨語言理解
使用案例
自然語言處理
情感分析
分析文本的情感傾向(正面/中立/負面)
示例準確率:92.46%(XStoryCloze-ar驗證集)
語言翻譯
執行語言間的翻譯任務
支持46種語言的互譯
內容創作
故事生成
根據提示生成具有特定寓意的故事
可生成多種語言的寓言故事
編程輔助
代碼生成
根據自然語言描述生成代碼
HumanEval測試集Pass@1準確率6.13%
🚀 BLOOMZ & mT0模型項目
BLOOMZ與mT0是一系列能夠以零樣本方式遵循多種語言人類指令的模型。它們通過在跨語言任務混合數據集上微調預訓練的多語言語言模型,實現了對未見任務和語言的跨語言泛化能力。
🚀 快速開始
本項目的模型可用於執行自然語言表達的任務。例如,輸入提示“Translate to English: Je t’aime.”,模型很可能會輸出“I love you.”。以下是一些來自論文的提示示例:
- 一個傳奇的開端,一個不滅的神話,這不僅僅是一部電影,而是作為一個走進新時代的標籤,永遠彪炳史冊。你認為這句話的立場是讚揚、中立還是批評?
- Suggest at least five related search terms to "Mạng neural nhân tạo".
- Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish):
- Explain in a sentence in Telugu what is backpropagation in neural networks.
✨ 主要特性
- 多語言支持:支持多種語言,包括但不限於英語、中文、法語、西班牙語等。
- 零樣本學習:能夠在未見任務和語言上進行跨語言泛化。
- 多任務微調:通過在跨語言任務混合數據集上微調,提升模型性能。
📚 詳細文檔
模型概述
我們推出了BLOOMZ和mT0模型家族,這些模型能夠零樣本地遵循幾十種語言的人類指令。我們在跨語言任務混合數據集(xP3)上對BLOOM和mT5預訓練的多語言語言模型進行微調,發現得到的模型能夠對未見任務和語言進行跨語言泛化。
- 倉庫地址:bigscience - workshop/xmtf
- 論文地址:Crosslingual Generalization through Multitask Finetuning
- 聯繫人:Niklas Muennighoff
- 支持語言:預訓練語言比例參考bloom,微調語言比例參考xP3。模型能夠理解預訓練和微調所用的語言。
BLOOMZ & mT0模型家族
微調數據集 | 300M | 580M | 1.2B | 3.7B | 13B | 560M | 1.1B | 1.7B | 3B | 7.1B | 176B |
---|---|---|---|---|---|---|---|---|---|---|---|
xP3 | mt0 - small | mt0 - base | mt0 - large | mt0 - xl | mt0 - xxl | bloomz - 560m | bloomz - 1b1 | bloomz - 1b7 | bloomz - 3b | bloomz - 7b1 | bloomz |
xP3mt | mt0 - xxl - mt | bloomz - 7b1 - mt | bloomz - mt | ||||||||
P3 | mt0 - xxl - p3 | bloomz - 7b1 - p3 | bloomz - p3 | ||||||||
原始預訓練檢查點 | mt5 - small | mt5 - base | mt5 - large | mt5 - xl | mt5 - xxl | bloom - 560m | bloom - 1b1 | bloom - 1b7 | bloom - 3b | bloom - 7b1 | bloom |
數據集
- 使用數據集:Muennighoff/P3
- 支持語言:
- ak、ar、as、bm、bn、ca、code、en、es、eu、fon、fr、gu、hi、id、ig、ki、kn、lg、ln、ml、mr、ne、nso、ny、or、pa、pt、rn、rw、sn、st、sw、ta、te、tn、ts、tum、tw、ur、vi、wo、xh、yo、zh、zu
- 編程語言:C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala、TypeScript
- 任務類型:text - generation
推理示例
示例文本 | 示例標題 |
---|---|
一個傳奇的開端,一個不滅的神話,這不僅僅是一部電影,而是作為一個走進新時代的標籤,永遠彪炳史冊。Would you rate the previous review as positive, neutral or negative? | zh - en sentiment |
一個傳奇的開端,一個不滅的神話,這不僅僅是一部電影,而是作為一個走進新時代的標籤,永遠彪炳史冊。你認為這句話的立場是讚揚、中立還是批評? | zh - zh sentiment |
Suggest at least five related search terms to "Mạng neural nhân tạo". | vi - en query |
Proposez au moins cinq mots clés concernant «Réseau de neurones artificiels». | fr - fr query |
Explain in a sentence in Telugu what is backpropagation in neural networks. | te - en qa |
Why is the sky blue? | en - en qa |
Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish): | es - en fable |
Write a fable about wood elves living in a forest that is suddenly invaded by ogres. The fable is a masterpiece that has achieved praise worldwide and its moral is "Violence is the last refuge of the incompetent". Fable (in Hindi): | hi - en fable |
評估結果
任務類型 | 數據集 | 指標 | 值 |
---|---|---|---|
Coreference resolution | Winogrande XL (xl) | Accuracy | 57.06 |
Coreference resolution | XWinograd (en) | Accuracy | 60.65 |
Coreference resolution | XWinograd (fr) | Accuracy | 59.04 |
Coreference resolution | XWinograd (jp) | Accuracy | 56.0 |
Coreference resolution | XWinograd (pt) | Accuracy | 60.46 |
Coreference resolution | XWinograd (ru) | Accuracy | 57.14 |
Coreference resolution | XWinograd (zh) | Accuracy | 60.71 |
Natural language inference | ANLI (r1) | Accuracy | 41.7 |
Natural language inference | ANLI (r2) | Accuracy | 39.3 |
Natural language inference | ANLI (r3) | Accuracy | 42.83 |
Natural language inference | SuperGLUE (cb) | Accuracy | 85.71 |
Natural language inference | SuperGLUE (rte) | Accuracy | 85.2 |
Natural language inference | XNLI (ar) | Accuracy | 56.71 |
Natural language inference | XNLI (bg) | Accuracy | 46.63 |
Natural language inference | XNLI (de) | Accuracy | 50.16 |
Natural language inference | XNLI (el) | Accuracy | 43.05 |
Natural language inference | XNLI (en) | Accuracy | 59.72 |
Natural language inference | XNLI (es) | Accuracy | 59.32 |
Natural language inference | XNLI (fr) | Accuracy | 57.99 |
Natural language inference | XNLI (hi) | Accuracy | 55.02 |
Natural language inference | XNLI (ru) | Accuracy | 50.12 |
Natural language inference | XNLI (sw) | Accuracy | 50.04 |
Natural language inference | XNLI (th) | Accuracy | 42.29 |
Natural language inference | XNLI (tr) | Accuracy | 43.78 |
Natural language inference | XNLI (ur) | Accuracy | 51.81 |
Natural language inference | XNLI (vi) | Accuracy | 57.27 |
Natural language inference | XNLI (zh) | Accuracy | 56.95 |
Program synthesis | HumanEval | Pass@1 | 6.13 |
Program synthesis | HumanEval | Pass@10 | 11.79 |
Program synthesis | HumanEval | Pass@100 | 18.73 |
Sentence completion | StoryCloze (2016) | Accuracy | 94.66 |
Sentence completion | SuperGLUE (copa) | Accuracy | 91.0 |
Sentence completion | XCOPA (et) | Accuracy | 53.0 |
Sentence completion | XCOPA (ht) | Accuracy | 58.0 |
Sentence completion | XCOPA (id) | Accuracy | 87.0 |
Sentence completion | XCOPA (it) | Accuracy | 74.0 |
Sentence completion | XCOPA (qu) | Accuracy | 57.0 |
Sentence completion | XCOPA (sw) | Accuracy | 61.0 |
Sentence completion | XCOPA (ta) | Accuracy | 69.0 |
Sentence completion | XCOPA (th) | Accuracy | 61.0 |
Sentence completion | XCOPA (tr) | Accuracy | 56.0 |
Sentence completion | XCOPA (vi) | Accuracy | 81.0 |
Sentence completion | XCOPA (zh) | Accuracy | 83.0 |
Sentence completion | XStoryCloze (ar) | Accuracy | 92.46 |
Sentence completion | XStoryCloze (es) | Accuracy | 94.44 |
Sentence completion | XStoryCloze (eu) | Accuracy | 86.7 |
Sentence completion | XStoryCloze (hi) | Accuracy | 88.35 |
Sentence completion | XStoryCloze (id) | Accuracy | 92.59 |
Sentence completion | XStoryCloze (my) | Accuracy | 52.68 |
Sentence completion | XStoryCloze (ru) | Accuracy | 79.62 |
Sentence completion | XStoryCloze (sw) | Accuracy | 77.76 |
Sentence completion | XStoryCloze (te) | Accuracy | 79.88 |
Sentence completion | XStoryCloze (zh) | Accuracy | 92.26 |
📄 許可證
本項目使用的許可證為bigscience - bloom - rail - 1.0。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98