Mt0 Xxl
mt0-xxl是BLOOMZ系列的多语言大模型,支持46种语言的跨语言任务处理,基于xP3数据集微调,擅长零样本跨语言指令执行
下载量 1,914
发布时间 : 10/19/2022
模型简介
基于mT5架构的多语言大模型,通过xP3数据集微调实现跨语言任务泛化能力,支持文本生成、翻译、问答等多种任务
模型特点
多语言零样本学习
无需特定语言训练即可处理46种语言的指令任务
跨任务泛化
在xP3混合任务数据集上微调,可泛化到未见过的任务类型
多任务统一处理
统一框架处理翻译、问答、文本生成等多样化任务
模型能力
多语言文本生成
跨语言翻译
指代消解
自然语言推理
情感分析
问答系统
关键词提取
使用案例
语言服务
多语言翻译
支持46种语言间的互译(如蒙古语-英语)
保持语义准确性的跨语言转换
跨语言问答
用任意支持语言提问并获得多语言回答
在XWinograd测试集上准确率达76-81%
内容生成
多语言故事创作
根据指定语言和主题生成连贯文本(如西班牙语童话)
保持文化适应性的创意输出
🚀 BLOOMZ与mT0模型介绍
本项目推出了BLOOMZ和mT0模型家族,这些模型能够零样本地遵循多种语言的人类指令。通过在跨语言任务混合数据集(xP3)上对BLOOM和mT5预训练的多语言语言模型进行微调,得到的模型能够对未见任务和语言进行跨语言泛化。
🚀 快速开始
模型使用
你可以通过以下方式使用这些模型:
- 访问模型的Hugging Face仓库,如 bigscience-workshop/xmtf 。
- 参考相关论文 Crosslingual Generalization through Multitask Finetuning 了解更多技术细节。
模型信息
属性 | 详情 |
---|---|
模型类型 | BLOOMZ与mT0模型家族 |
训练数据 | 预训练使用 mc4 ,微调使用 xP3 |
支持语言 | 支持多种语言,具体语言比例参考预训练和微调数据集 |
仓库地址 | bigscience-workshop/xmtf |
论文地址 | Crosslingual Generalization through Multitask Finetuning |
联系人 | Niklas Muennighoff |
BLOOMZ与mT0模型家族
在 xP3 上进行多任务微调,推荐使用英语进行提示
参数 | 300M | 580M | 1.2B | 3.7B | 13B | 560M | 1.1B | 1.7B | 3B | 7.1B | 176B |
---|---|---|---|---|---|---|---|---|---|---|---|
微调模型 | mt0-small | mt0-base | mt0-large | mt0-xl | mt0-xxl | bloomz-560m | bloomz-1b1 | bloomz-1b7 | bloomz-3b | bloomz-7b1 | bloomz |
在 xP3mt 上进行多任务微调,推荐使用非英语进行提示
部分模型信息暂未完整列出。
📚 详细文档
数据集介绍
- xP3:包含46种语言的13个训练任务混合,使用英语提示。例如 bloomz 和 mt0-xxl 模型使用了该数据集。
- xP3mt:46种语言的13个训练任务混合,提示使用20种语言(从英语机器翻译而来)。如 bloomz-mt 和 mt0-xxl-mt 模型。
- xP3all:xP3加上额外的评估数据集,增加了3个任务,共16个任务,使用英语提示。
- xP3megds: Megatron - DeepSpeed 处理版本的xP3,例如 bloomz 模型。
- P3:仅英语的 P3 重新处理版本,包含8个训练任务。如 bloomz-p3 和 mt0-xxl-p3 模型。
示例使用
以下是一些使用示例:
- en - en struct - to - text:
<table> <tr> <th>Name</th> <th>Explanation</th> <th>Example models</th></tr> <tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3>xP3</a></t> <td>Mixture of 13 training tasks in 46 languages with English prompts</td> <td><a href=https://huggingface.co/bigscience/bloomz>bloomz</a> & <a href=https://huggingface.co/bigscience/mt0-xxl>mt0-xxl</a></td> </tr> <tr><td><a href=https://huggingface.co/datasets/bigscience/xP3mt>xP3mt</a></t> <td>Mixture of 13 training tasks in 46 languages with prompts in 20 languages (machine-translated from English)</td> <td><a href=https://huggingface.co/bigscience/bloomz-mt>bloomz-mt</a> & <a href=https://huggingface.co/bigscience/mt0-xxl-mt>mt0-xxl-mt</a></td> </tr><tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3all>xP3all</a></t> <td>xP3 + our evaluation datasets adding an additional 3 tasks for a total of 16 tasks in 46 languages with English prompts</td> <td></td> </tr><tr><td><a href=https://huggingface.co/datasets/bigscience/xP3megds>xP3megds</a></t> <td><a href=https://github.com/bigscience-workshop/Megatron-DeepSpeed>Megatron-DeepSpeed</a> processed version of xP3</td> <td><a href=https://huggingface.co/bigscience/bloomz>bloomz</a></td> </tr><tr><td><a href=https://huggingface.co/datasets/Muennighoff/P3>P3</a></t> <td>Repreprocessed version of the English-only <a href=https://huggingface.co/datasets/bigscience/P3>P3</a> with 8 training tasks</td> <td><a href=https://huggingface.co/bigscience/bloomz-p3>bloomz-p3</a> & <a href=https://huggingface.co/bigscience/mt0-xxl-p3>mt0-xxl-p3</a></td> </tr></table> Which dataset has the most tasks?
- mn - en translation:
Life is beautiful! Translate to Mongolian.
- jp - or - fr translation:
Le mot japonais «憂鬱» veut dire quoi en Odia?
- de - nb quiz:
Stell mir eine schwierige Quiz Frage bei der es um Astronomie geht. Bitte stell die Frage auf Norwegisch.
- zh - en keywords:
We present BLOOMZ & mT0, a family of models capable of following human instructions in dozens of languages zero-shot. We finetune BLOOM & mT5 pretrained multilingual language models on our crosslingual task mixture (xP3) and find our resulting models capable of crosslingual generalization to unseen tasks & languages. What are the keywords in Chinese?
- zh - en sentiment:
一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。Would you rate the previous review as positive, neutral or negative?
- zh - zh sentiment:
一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评?
- vi - en query:
Suggest at least five related search terms to "Mạng neural nhân tạo".
- fr - fr query:
Proposez au moins cinq mots clés concernant «Réseau de neurones artificiels».
- te - en qa:
Explain in a sentence in Telugu what is backpropagation in neural networks.
- en - en qa:
Why is the sky blue?
- es - en fable:
Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish):
- hi - en fable:
Write a fable about wood elves living in a forest that is suddenly invaded by ogres. The fable is a masterpiece that has achieved praise worldwide and its moral is "Violence is the last refuge of the incompetent". Fable (in Hindi):
🔧 技术细节
评估指标
以 mt0 - xxl
模型为例,在多个任务和数据集上的评估结果如下:
共指消解任务
数据集 | 语言 | 准确率 |
---|---|---|
Winogrande XL (xl) | 无 | 63.38 |
XWinograd (en) | 英语 | 81.29 |
XWinograd (fr) | 法语 | 78.31 |
XWinograd (jp) | 日语 | 78.62 |
XWinograd (pt) | 葡萄牙语 | 77.95 |
XWinograd (ru) | 俄语 | 76.51 |
XWinograd (zh) | 中文 | 77.38 |
自然语言推理任务
数据集 | 语言 | 准确率 |
---|---|---|
ANLI (r1) | 无 | 49.5 |
ANLI (r2) | 无 | 43 |
ANLI (r3) | 无 | 46.08 |
SuperGLUE (cb) | 无 | 85.71 |
SuperGLUE (rte) | 无 | 85.56 |
XNLI (ar) | 阿拉伯语 | 57.91 |
XNLI (bg) | 保加利亚语 | 59.88 |
XNLI (de) | 德语 | 60.64 |
XNLI (el) | 希腊语 | 59 |
XNLI (en) | 英语 | 62.01 |
XNLI (es) | 西班牙语 | 60.8 |
XNLI (fr) | 法语 | 59.88 |
XNLI (hi) | 印地语 | 57.23 |
XNLI (ru) | 俄语 | 58.88 |
XNLI (sw) | 斯瓦希里语 | 55.66 |
XNLI (th) | 泰语 | 57.43 |
XNLI (tr) | 土耳其语 | 57.59 |
XNLI (ur) | 乌尔都语 | 55.42 |
XNLI (vi) | 越南语 | 58.51 |
XNLI (zh) | 中文 | 59.12 |
句子完成任务
数据集 | 语言 | 准确率 |
---|---|---|
StoryCloze (2016) | 无 | 96.04 |
SuperGLUE (copa) | 无 | 93 |
XCOPA (et) | 爱沙尼亚语 | 79 |
XCOPA (ht) | 海地克里奥尔语 | 81 |
XCOPA (id) | 印尼语 | 92 |
XCOPA (it) | 意大利语 | 90 |
XCOPA (qu) | 克丘亚语 | 59 |
XCOPA (sw) | 斯瓦希里语 | 79 |
XCOPA (ta) | 泰米尔语 | 84 |
XCOPA (th) | 泰语 | 77 |
XCOPA (tr) | 土耳其语 | 79 |
XCOPA (vi) | 越南语 | 88 |
XCOPA (zh) | 中文 | 89 |
XStoryCloze (ar) | 阿拉伯语 | 91.07 |
XStoryCloze (es) | 西班牙语 | 92.52 |
XStoryCloze (eu) | 巴斯克语 | 90.6 |
XStoryCloze (hi) | 印地语 | 92.32 |
XStoryCloze (id) | 印尼语 | 93.51 |
XStoryCloze (my) | 缅甸语 | 87.49 |
XStoryCloze (ru) | 俄语 | 91.4 |
XStoryCloze (sw) | 斯瓦希里语 | 89.41 |
XStoryCloze (te) | 泰卢固语 | 90.54 |
XStoryCloze (zh) | 中文 | 93.85 |
📄 许可证
本项目使用 apache - 2.0
许可证。
📝 引用
如果你使用了该模型或相关研究,请引用以下论文: Crosslingual Generalization through Multitask Finetuning
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98