Bloomz 7b1 Mt
BLOOMZ和mT0是一系列多语言指令跟随模型,通过跨语言任务混合数据集微调预训练模型,具备零样本跨语言泛化能力。
下载量 3,665
发布时间 : 9/28/2022
模型简介
该模型家族能够以零样本方式处理多种语言的自然语言任务,支持跨语言理解和任务泛化,适用于多语言场景下的文本生成与理解。
模型特点
多语言支持
预训练和微调阶段使用不同语言比例,支持46种语言的文本理解和生成
跨语言泛化
经过xP3数据集微调后,能对未见过的任务和语言进行零样本处理
多参数选择
提供从560M到176B不同参数规模的模型版本,适应不同计算需求
指令跟随
能够理解并执行自然语言表达的复杂指令,完成多样化任务
模型能力
多语言文本生成
跨语言翻译
指令理解与执行
零样本任务处理
文本分类与推理
使用案例
语言服务
多语言翻译
支持46种语言间的互译,如法英翻译'Je t'aime'→'I love you'
在xP3测试集上显示良好的跨语言迁移能力
多语言内容生成
生成不同语言的童话故事、技术说明等文本内容
示例显示可生成符合道德要求的西班牙语童话故事
教育辅助
概念解释
用目标语言解释专业术语(如泰卢固语解释反向传播)
在XNLI多语言理解任务中准确率超过随机基线
🚀 BLOOMZ & mT0 模型项目
BLOOMZ 和 mT0 是一系列能够以零样本方式遵循多种语言人类指令的模型。通过在跨语言任务混合数据集上微调预训练的多语言语言模型,这些模型具备跨语言泛化能力,可处理未见任务和语言。
🚀 快速开始
你可以直接使用该模型处理自然语言表达的任务。例如,给出提示“Translate to English: Je t’aime.”,模型很可能会回答“I love you.”。
✨ 主要特性
- 多语言支持:支持多种语言,在预训练和微调阶段使用不同语言比例,可理解相应语言。
- 跨语言泛化:经过微调后,能对未见任务和语言进行跨语言泛化处理。
- 多参数选择:提供不同参数规模的模型供选择,以适应不同需求。
📚 详细文档
模型概述
我们推出了 BLOOMZ 和 mT0 模型家族,它们能以零样本方式遵循多种语言的人类指令。通过在跨语言任务混合数据集(xP3)上对 BLOOM 和 mT5 预训练的多语言语言模型进行微调,得到的模型具备对未见任务和语言的跨语言泛化能力。
- 仓库地址:bigscience - workshop/xmtf
- 论文地址:Crosslingual Generalization through Multitask Finetuning
- 联系人:Niklas Muennighoff
- 支持语言:预训练语言比例参考 bloom,微调语言比例参考 xP3,模型能理解预训练和微调所用的语言。
- BLOOMZ 和 mT0 模型家族: | 微调数据集 | 参数 | 300M | 580M | 1.2B | 3.7B | 13B | 560M | 1.1B | 1.7B | 3B | 7.1B | 176B | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 基于 xP3 多任务微调,推荐英文提示 | 微调模型 | [mt0 - small](https://huggingface.co/bigscience/mt0 - small) | [mt0 - base](https://huggingface.co/bigscience/mt0 - base) | [mt0 - large](https://huggingface.co/bigscience/mt0 - large) | [mt0 - xl](https://huggingface.co/bigscience/mt0 - xl) | [mt0 - xxl](https://huggingface.co/bigscience/mt0 - xxl) | [bloomz - 560m](https://huggingface.co/bigscience/bloomz - 560m) | [bloomz - 1b1](https://huggingface.co/bigscience/bloomz - 1b1) | [bloomz - 1b7](https://huggingface.co/bigscience/bloomz - 1b7) | [bloomz - 3b](https://huggingface.co/bigscience/bloomz - 3b) | [bloomz - 7b1](https://huggingface.co/bigscience/bloomz - 7b1) | bloomz | | 基于 xP3mt 多任务微调,推荐非英文提示 | 微调模型 | | | | | [mt0 - xxl - mt](https://huggingface.co/bigscience/mt0 - xxl - mt) | | | | | [bloomz - 7b1 - mt](https://huggingface.co/bigscience/bloomz - 7b1 - mt) | [bloomz - mt](https://huggingface.co/bigscience/bloomz - mt) | | 基于 P3 多任务微调,仅用于研究目的,性能不如上述模型 | 微调模型 | | | | | [mt0 - xxl - p3](https://huggingface.co/bigscience/mt0 - xxl - p3) | | | | | [bloomz - 7b1 - p3](https://huggingface.co/bigscience/bloomz - 7b1 - p3) | [bloomz - p3](https://huggingface.co/bigscience/bloomz - p3) | | 原始预训练检查点,不推荐使用 | 预训练模型 | [mt5 - small](https://huggingface.co/google/mt5 - small) | [mt5 - base](https://huggingface.co/google/mt5 - base) | [mt5 - large](https://huggingface.co/google/mt5 - large) | [mt5 - xl](https://huggingface.co/google/mt5 - xl) | [mt5 - xxl](https://huggingface.co/google/mt5 - xxl) | [bloom - 560m](https://huggingface.co/bigscience/bloom - 560m) | [bloom - 1b1](https://huggingface.co/bigscience/bloom - 1b1) | [bloom - 1b7](https://huggingface.co/bigscience/bloom - 1b7) | [bloom - 3b](https://huggingface.co/bigscience/bloom - 3b) | [bloom - 7b1](https://huggingface.co/bigscience/bloom - 7b1) | bloom |
模型使用
预期用途
建议使用该模型执行自然语言表达的任务。以下是论文中给出的一些提示示例:
- 一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评?
- Suggest at least five related search terms to "Mạng neural nhân tạo".
- Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish):
- Explain in a sentence in Telugu what is backpropagation in neural networks.
评估结果
任务类型 | 数据集 | 名称 | 配置 | 分割 | 修订版本 | 指标 | 值 |
---|---|---|---|---|---|---|---|
指代消解 | winogrande | Winogrande XL (xl) | xl | validation | a80f460359d1e9a67c006011c94de42a8759430c | 准确率 | 56.51 |
指代消解 | Muennighoff/xwinograd | XWinograd (en) | en | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 65.76 |
指代消解 | Muennighoff/xwinograd | XWinograd (fr) | fr | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 57.83 |
指代消解 | Muennighoff/xwinograd | XWinograd (jp) | jp | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 51.82 |
指代消解 | Muennighoff/xwinograd | XWinograd (pt) | pt | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 57.41 |
指代消解 | Muennighoff/xwinograd | XWinograd (ru) | ru | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 55.87 |
指代消解 | Muennighoff/xwinograd | XWinograd (zh) | zh | test | 9dd5ea5505fad86b7bedad667955577815300cee | 准确率 | 62.7 |
自然语言推理 | anli | ANLI (r1) | r1 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 准确率 | 42.6 |
自然语言推理 | anli | ANLI (r2) | r2 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 准确率 | 39.4 |
自然语言推理 | anli | ANLI (r3) | r3 | validation | 9dbd830a06fea8b1c49d6e5ef2004a08d9f45094 | 准确率 | 42.0 |
自然语言推理 | super_glue | SuperGLUE (cb) | cb | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 准确率 | 83.93 |
自然语言推理 | super_glue | SuperGLUE (rte) | rte | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 准确率 | 82.67 |
自然语言推理 | xnli | XNLI (ar) | ar | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 55.58 |
自然语言推理 | xnli | XNLI (bg) | bg | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 44.9 |
自然语言推理 | xnli | XNLI (de) | de | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 48.92 |
自然语言推理 | xnli | XNLI (el) | el | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 42.89 |
自然语言推理 | xnli | XNLI (en) | en | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 58.92 |
自然语言推理 | xnli | XNLI (es) | es | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 57.35 |
自然语言推理 | xnli | XNLI (fr) | fr | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 56.67 |
自然语言推理 | xnli | XNLI (hi) | hi | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 53.45 |
自然语言推理 | xnli | XNLI (ru) | ru | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 50.24 |
自然语言推理 | xnli | XNLI (sw) | sw | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 48.27 |
自然语言推理 | xnli | XNLI (th) | th | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 41.08 |
自然语言推理 | xnli | XNLI (tr) | tr | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 38.71 |
自然语言推理 | xnli | XNLI (ur) | ur | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 49.48 |
自然语言推理 | xnli | XNLI (vi) | vi | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 54.5 |
自然语言推理 | xnli | XNLI (zh) | zh | validation | a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16 | 准确率 | 54.3 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@1 | 7.23 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@10 | 14.46 |
程序合成 | openai_humaneval | HumanEval | None | test | e8dc562f5de170c54b5481011dd9f4fa04845771 | Pass@100 | 25.86 |
句子完成 | story_cloze | StoryCloze (2016) | "2016" | validation | e724c6f8cdf7c7a2fb229d862226e15b023ee4db | 准确率 | 89.58 |
句子完成 | super_glue | SuperGLUE (copa) | copa | validation | 9e12063561e7e6c79099feb6d5a493142584e9e2 | 准确率 | 84.0 |
句子完成 | xcopa | XCOPA (et) | et | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 52.0 |
句子完成 | xcopa | XCOPA (ht) | ht | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 54.0 |
句子完成 | xcopa | XCOPA (id) | id | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 73.0 |
句子完成 | xcopa | XCOPA (it) | it | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 62.0 |
句子完成 | xcopa | XCOPA (qu) | qu | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 61.0 |
句子完成 | xcopa | XCOPA (sw) | sw | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 61.0 |
句子完成 | xcopa | XCOPA (ta) | ta | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 62.0 |
句子完成 | xcopa | XCOPA (th) | th | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 61.0 |
句子完成 | xcopa | XCOPA (tr) | tr | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 56.0 |
句子完成 | xcopa | XCOPA (vi) | vi | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 77.0 |
句子完成 | xcopa | XCOPA (zh) | zh | validation | 37f73c60fb123111fa5af5f9b705d0b3747fd187 | 准确率 | 80.0 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (ar) | ar | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 83.85 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (es) | es | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 88.82 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (eu) | eu | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 73.26 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (hi) | hi | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 80.41 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (id) | id | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 84.58 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (my) | my | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 51.56 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (ru) | ru | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 64.26 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (sw) | sw | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 71.01 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (te) | te | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 73.06 |
句子完成 | Muennighoff/xstory_cloze | XStoryCloze (zh) | zh | validation | 8bb76e594b68147f1a430e86829d07189622b90d | 准确率 | 85.9 |
🔧 技术细节
- 数据集:使用了 bigscience/xP3mt 等数据集。
- 支持语言:支持多种语言,包括但不限于 ak、ar、as 等。
- 编程语言:支持 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala、TypeScript 等。
- 任务标签:文本生成。
属性 | 详情 |
---|---|
数据集 | bigscience/xP3mt |
许可证 | bigscience - bloom - rail - 1.0 |
支持语言 | ak、ar、as、bm、bn、ca、code、en、es、eu、fon、fr、gu、hi、id、ig、ki、kn、lg、ln、ml、mr、ne、nso、ny、or、pa、pt、rn、rw、sn、st、sw、ta、te、tn、ts、tum、tw、ur、vi、wo、xh、yo、zh、zu |
编程语言 | C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala、TypeScript |
任务标签 | 文本生成 |
📄 许可证
该模型使用 bigscience - bloom - rail - 1.0 许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98