MT0-Large开源多语言文本生成模型 - 支持多任务，擅长指代消解和推理

首页

Mt0 Large

由 bigscience 开发

MT0-Large 是一个多语言文本生成模型，支持多种语言和任务，特别擅长指代消解和自然语言推理。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言指代消解 #低资源自然语言推理 #跨语言任务泛化

下载量 5,091

发布时间 : 10/27/2022

模型简介

MT0-Large 是一个基于 Transformer 架构的多语言文本生成模型，能够处理多种语言和任务，包括指代消解、自然语言推理等。

模型特点

多语言支持

支持超过 80 种语言，能够处理多种语言的文本生成任务。

多任务处理

能够执行多种任务，包括指代消解、自然语言推理等。

高性能

在多个数据集上表现出色，尤其在指代消解任务中表现优异。

模型能力

文本生成

指代消解

自然语言推理

多语言处理

使用案例

情感分析

中文情感分析

分析中文文本的情感倾向（赞扬、中立或批评）。

查询扩展

越南语-英语查询

根据越南语查询词生成相关的英语搜索词。

问答系统

泰卢固语-英语问答

用泰卢固语回答关于神经网络的反向传播问题。

故事生成

西班牙语-英语寓言

用西班牙语生成关于巨魔拯救公主的童话故事。

🚀 BLOOMZ & mT0模型项目

BLOOMZ和mT0是一系列能够以零样本方式遵循多种语言人类指令的模型。通过在跨语言任务混合数据集上对预训练的多语言模型进行微调，这些模型能够在未见过的任务和语言上实现跨语言泛化。

xmtf

📋 模型概述

我们推出了BLOOMZ和mT0模型家族，这些模型能够以零样本的方式遵循几十种语言的人类指令。我们在跨语言任务混合数据集（xP3）上对BLOOM和mT5预训练的多语言模型进行微调，发现得到的模型能够在未见过的任务和语言上实现跨语言泛化。

仓库地址：bigscience-workshop/xmtf
论文地址：Crosslingual Generalization through Multitask Finetuning
联系人：Niklas Muennighoff
支持语言：预训练语言比例参考 mc4，微调语言比例参考 xP3。模型能够理解预训练和微调所用的语言。
BLOOMZ和mT0模型家族：

微调数据集	参数数量	300M	580M	1.2B	3.7B	13B	560M	1.1B	1.7B	3B	7.1B	176B
基于xP3多任务微调，推荐英文提示	微调模型	mt0-small	mt0-base	mt0-large	mt0-xl	mt0-xxl	bloomz-560m	bloomz-1b1	bloomz-1b7	bloomz-3b	bloomz-7b1	bloomz
基于xP3mt多任务微调，推荐非英文提示	微调模型					mt0-xxl-mt					bloomz-7b1-mt	bloomz-mt
基于P3多任务微调，仅用于研究目的，性能不如上述模型	微调模型					mt0-xxl-p3					bloomz-7b1-p3	bloomz-p3
原始预训练模型，不推荐使用	预训练模型	mt5-small	mt5-base	mt5-large	mt5-xl	mt5-xxl	bloom-560m	bloom-1b1	bloom-1b7	bloom-3b	bloom-7b1	bloom

📦 安装指南

文档中未提及具体安装步骤，可参考使用部分代码中的依赖安装命令：

CPU环境：pip install -q transformers
GPU环境：pip install -q transformers accelerate
8bit GPU环境：pip install -q transformers accelerate bitsandbytes

💻 使用示例

预期用途

建议使用该模型执行以自然语言表达的任务。例如，给定提示“Translate to English: Je t’aime.”，模型很可能会回答“I love you.”。以下是论文中的一些提示示例：

一个传奇的开端，一个不灭的神话，这不仅仅是一部电影，而是作为一个走进新时代的标签，永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评?
Suggest at least five related search terms to "Mạng neural nhân tạo".
Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish):
Explain in a sentence in Telugu what is backpropagation in neural networks.

欢迎在社区板块分享你的生成结果！

基础用法

CPU环境

点击展开

# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "bigscience/mt0-large"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

GPU环境

点击展开

# pip install -q transformers accelerate
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "bigscience/mt0-large"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, torch_dtype="auto", device_map="auto")

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

8bit GPU环境

点击展开

# pip install -q transformers accelerate bitsandbytes
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "bigscience/mt0-large"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, device_map="auto", load_in_8bit=True)

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

🔧 局限性

提示工程：模型性能可能会因提示的不同而有所差异。对于BLOOMZ模型，建议明确告知输入的结束位置，以避免模型继续生成内容。例如，提示“Translate to English: Je t'aime” 若没有句点结尾，模型可能会继续生成法语句子。更好的提示示例有 “Translate to English: Je t'aime.”、“Translate to English: Je t'aime. Translation:”、“What is "Je t'aime." in English?” ，这些提示能让模型明确何时开始回答。此外，建议为模型提供尽可能多的上下文信息。例如，若希望模型用泰卢固语回答，可告知模型，如 “Explain in a sentence in Telugu what is backpropagation in neural networks.”。

🔧 训练详情

模型

架构：与 mt5-large 相同，也可参考 config.json 文件。
微调步数：25000
微调令牌数：46.2亿
精度：bfloat16

硬件

TPU：TPUv4 - 64

软件

编排工具：T5X
神经网络框架：Jax

🔧 评估结果

关于未见过任务的零样本结果，可参考论文 Crosslingual Generalization through Multitask Finetuning 中的表7以及 bigscience/evaluation-results。侧边栏展示了每个数据集配置下最佳提示的零样本性能。

📄 许可证

本项目使用 apache - 2.0 许可证。

📄 引用信息

@article{muennighoff2022crosslingual,
  title={Crosslingual generalization through multitask finetuning},
  author={Muennighoff, Niklas and Wang, Thomas and Sutawika, Lintang and Roberts, Adam and Biderman, Stella and Scao, Teven Le and Bari, M Saiful and Shen, Sheng and Yong, Zheng-Xin and Schoelkopf, Hailey and others},
  journal={arXiv preprint arXiv:2211.01786},
  year={2022}
}