Bloomz 7b1 Mt
BLOOMZ和mT0是一系列多語言指令跟隨模型,通過跨語言任務混合數據集微調預訓練模型,具備零樣本跨語言泛化能力。
下載量 3,665
發布時間 : 9/28/2022
模型概述
該模型家族能夠以零樣本方式處理多種語言的自然語言任務,支持跨語言理解和任務泛化,適用於多語言場景下的文本生成與理解。
模型特點
多語言支持
預訓練和微調階段使用不同語言比例,支持46種語言的文本理解和生成
跨語言泛化
經過xP3數據集微調後,能對未見過的任務和語言進行零樣本處理
多參數選擇
提供從560M到176B不同參數規模的模型版本,適應不同計算需求
指令跟隨
能夠理解並執行自然語言表達的複雜指令,完成多樣化任務
模型能力
多語言文本生成
跨語言翻譯
指令理解與執行
零樣本任務處理
文本分類與推理
使用案例
語言服務
多語言翻譯
支持46種語言間的互譯,如法英翻譯'Je t'aime'→'I love you'
在xP3測試集上顯示良好的跨語言遷移能力
多語言內容生成
生成不同語言的童話故事、技術說明等文本內容
示例顯示可生成符合道德要求的西班牙語童話故事
教育輔助
概念解釋
用目標語言解釋專業術語(如泰盧固語解釋反向傳播)
在XNLI多語言理解任務中準確率超過隨機基線
🚀 BLOOMZ & mT0 模型項目
BLOOMZ 和 mT0 是一系列能夠以零樣本方式遵循多種語言人類指令的模型。通過在跨語言任務混合數據集上微調預訓練的多語言語言模型,這些模型具備跨語言泛化能力,可處理未見任務和語言。
🚀 快速開始
你可以直接使用該模型處理自然語言表達的任務。例如,給出提示“Translate to English: Je t’aime.”,模型很可能會回答“I love you.”。
✨ 主要特性
- 多語言支持:支持多種語言,在預訓練和微調階段使用不同語言比例,可理解相應語言。
- 跨語言泛化:經過微調後,能對未見任務和語言進行跨語言泛化處理。
- 多參數選擇:提供不同參數規模的模型供選擇,以適應不同需求。
📚 詳細文檔
模型概述
我們推出了 BLOOMZ 和 mT0 模型家族,它們能以零樣本方式遵循多種語言的人類指令。通過在跨語言任務混合數據集(xP3)上對 BLOOM 和 mT5 預訓練的多語言語言模型進行微調,得到的模型具備對未見任務和語言的跨語言泛化能力。
- 倉庫地址:bigscience - workshop/xmtf
- 論文地址:Crosslingual Generalization through Multitask Finetuning
- 聯繫人:Niklas Muennighoff
- 支持語言:預訓練語言比例參考 bloom,微調語言比例參考 xP3,模型能理解預訓練和微調所用的語言。
- BLOOMZ 和 mT0 模型家族: | 微調數據集 | 參數 | 300M | 580M | 1.2B | 3.7B | 13B | 560M | 1.1B | 1.7B | 3B | 7.1B | 176B | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 基於 xP3 多任務微調,推薦英文提示 | 微調模型 | [mt0 - small](https://huggingface.co/bigscience/mt0 - small) | [mt0 - base](https://huggingface.co/bigscience/mt0 - base) | [mt0 - large](https://huggingface.co/bigscience/mt0 - large) | [mt0 - xl](https://huggingface.co/bigscience/mt0 - xl) | [mt0 - xxl](https://huggingface.co/bigscience/mt0 - xxl) | [bloomz - 560m](https://huggingface.co/bigscience/bloomz - 560m) | [bloomz - 1b1](https://huggingface.co/bigscience/bloomz - 1b1) | [bloomz - 1b7](https://huggingface.co/bigscience/bloomz - 1b7) | [bloomz - 3b](https://huggingface.co/bigscience/bloomz - 3b) | [bloomz - 7b1](https://huggingface.co/bigscience/bloomz - 7b1) | bloomz | | 基於 xP3mt 多任務微調,推薦非英文提示 | 微調模型 | | | | | [mt0 - xxl - mt](https://huggingface.co/bigscience/mt0 - xxl - mt) | | | | | [bloomz - 7b1 - mt](https://huggingface.co/bigscience/bloomz - 7b1 - mt) | [bloomz - mt](https://huggingface.co/bigscience/bloomz - mt) | | 基於 P3 多任務微調,僅用於研究目的,性能不如上述模型 | 微調模型 | | | | | [mt0 - xxl - p3](https://huggingface.co/bigscience/mt0 - xxl - p3) | | | | | [bloomz - 7b1 - p3](https://huggingface.co/bigscience/bloomz - 7b1 - p3) | [bloomz - p3](https://huggingface.co/bigscience/bloomz - p3) | | 原始預訓練檢查點,不推薦使用 | 預訓練模型 | [mt5 - small](https://huggingface.co/google/mt5 - small) | [mt5 - base](https://huggingface.co/google/mt5 - base) | [mt5 - large](https://huggingface.co/google/mt5 - large) | [mt5 - xl](https://huggingface.co/google/mt5 - xl) | [mt5 - xxl](https://huggingface.co/google/mt5 - xxl) | [bloom - 560m](https://huggingface.co/bigscience/bloom - 560m) | [bloom - 1b1](https://huggingface.co/bigscience/bloom - 1b1) | [bloom - 1b7](https://huggingface.co/bigscience/bloom - 1b7) | [bloom - 3b](https://huggingface.co/bigscience/bloom - 3b) | [bloom - 7b1](https://huggingface.co/bigscience/bloom - 7b1) | bloom |
模型使用
預期用途
建議使用該模型執行自然語言表達的任務。以下是論文中給出的一些提示示例:
- 一個傳奇的開端,一個不滅的神話,這不僅僅是一部電影,而是作為一個走進新時代的標籤,永遠彪炳史冊。你認為這句話的立場是讚揚、中立還是批評?
- Suggest at least five related search terms to "Mạng neural nhân tạo".
- Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish):
- Explain in a sentence in Telugu what is backpropagation in neural networks.
評估結果
任務類型 | 數據集 | 名稱 | 配置 | 分割 | 修訂版本 | 指標 | 值 |
---|---|---|---|---|---|---|---|
指代消解 | winogrande | Winogrande XL (xl) | xl | validation | a80f460359d1e9a67c006011c94de42a8759430c | 準確率 | 56.51 |
指代消解 | Muennighoff/xwinograd | XWinograd (en) | en | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 65.76 |
指代消解 | Muennighoff/xwinograd | XWinograd (fr) | fr | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 57.83 |
指代消解 | Muennighoff/xwinograd | XWinograd (jp) | jp | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 51.82 |
指代消解 | Muennighoff/xwinograd | XWinograd (pt) | pt | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 57.41 |
指代消解 | Muennighoff/xwinograd | XWinograd (ru) | ru | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 55.87 |
指代消解 | Muennighoff/xwinograd | XWinograd (zh) | zh | test | 9dd5ea5505fad86b7bedad667955577815300cee | 準確率 | 62.7 |
自然語言推理 | anli | ANLI (r1) | r1 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 準確率 | 42.6 |
自然語言推理 | anli | ANLI (r2) | r2 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 準確率 | 39.4 |
自然語言推理 | anli | ANLI (r3) | r3 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 準確率 | 42.0 |
自然語言推理 | super_glue | SuperGLUE (cb) | cb | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 準確率 | 83.93 |
自然語言推理 | super_glue | SuperGLUE (rte) | rte | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 準確率 | 82.67 |
自然語言推理 | xnli | XNLI (ar) | ar | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 55.58 |
自然語言推理 | xnli | XNLI (bg) | bg | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 44.9 |
自然語言推理 | xnli | XNLI (de) | de | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 48.92 |
自然語言推理 | xnli | XNLI (el) | el | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 42.89 |
自然語言推理 | xnli | XNLI (en) | en | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 58.92 |
自然語言推理 | xnli | XNLI (es) | es | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 57.35 |
自然語言推理 | xnli | XNLI (fr) | fr | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 56.67 |
自然語言推理 | xnli | XNLI (hi) | hi | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 53.45 |
自然語言推理 | xnli | XNLI (ru) | ru | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 50.24 |
自然語言推理 | xnli | XNLI (sw) | sw | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 48.27 |
自然語言推理 | xnli | XNLI (th) | th | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 41.08 |
自然語言推理 | xnli | XNLI (tr) | tr | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 38.71 |
自然語言推理 | xnli | XNLI (ur) | ur | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 49.48 |
自然語言推理 | xnli | XNLI (vi) | vi | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 54.5 |
自然語言推理 | xnli | XNLI (zh) | zh | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 準確率 | 54.3 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@1 | 7.23 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@10 | 14.46 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@100 | 25.86 |
句子完成 | story_cloze | StoryCloze (2016) | "2016" | validation | e724c6f8cdf7c7a2fb229d862226e15b023ee4db | 準確率 | 89.58 |
句子完成 | super_glue | SuperGLUE (copa) | copa | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 準確率 | 84.0 |
句子完成 | xcopa | XCOPA (et) | et | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 52.0 |
句子完成 | xcopa | XCOPA (ht) | ht | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 54.0 |
句子完成 | xcopa | XCOPA (id) | id | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 73.0 |
句子完成 | xcopa | XCOPA (it) | it | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 62.0 |
句子完成 | xcopa | XCOPA (qu) | qu | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 61.0 |
句子完成 | xcopa | XCOPA (sw) | sw | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 61.0 |
句子完成 | xcopa | XCOPA (ta) | ta | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 62.0 |
句子完成 | xcopa | XCOPA (th) | th | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 61.0 |
句子完成 | xcopa | XCOPA (tr) | tr | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 56.0 |
句子完成 | xcopa | XCOPA (vi) | vi | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 77.0 |
句子完成 | xcopa | XCOPA (zh) | zh | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 準確率 | 80.0 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (ar) | ar | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 83.85 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (es) | es | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 88.82 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (eu) | eu | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 73.26 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (hi) | hi | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 80.41 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (id) | id | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 84.58 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (my) | my | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 51.56 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (ru) | ru | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 64.26 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (sw) | sw | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 71.01 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (te) | te | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 73.06 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (zh) | zh | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 準確率 | 85.9 |
🔧 技術細節
- 數據集:使用了 bigscience/xP3mt 等數據集。
- 支持語言:支持多種語言,包括但不限於 ak、ar、as 等。
- 編程語言:支持 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala、TypeScript 等。
- 任務標籤:文本生成。
屬性 | 詳情 |
---|---|
數據集 | bigscience/xP3mt |
許可證 | bigscience - bloom - rail - 1.0 |
支持語言 | ak、ar、as、bm、bn、ca、code、en、es、eu、fon、fr、gu、hi、id、ig、ki、kn、lg、ln、ml、mr、ne、nso、ny、or、pa、pt、rn、rw、sn、st、sw、ta、te、tn、ts、tum、tw、ur、vi、wo、xh、yo、zh、zu |
編程語言 | C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala、TypeScript |
任務標籤 | 文本生成 |
📄 許可證
該模型使用 bigscience - bloom - rail - 1.0 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98