模型简介
模型特点
模型能力
使用案例
🚀 roberta-large-mnli
roberta-large-mnli 是基于 RoBERTa 大模型在 Multi-Genre Natural Language Inference (MNLI) 语料库上微调得到的模型。它可以用于零样本分类任务,为自然语言处理提供了强大的支持。
🚀 快速开始
使用以下代码开始使用该模型。可以使用零样本分类管道加载模型,如下所示:
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
然后可以使用此管道将序列分类到指定的任何类名中。例如:
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
✨ 主要特性
- 零样本分类能力:该微调模型可用于零样本分类任务,包括零样本句子对分类和零样本序列分类。
- Transformer架构:基于Transformer的语言模型,具有强大的语言理解能力。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
高级用法
# 使用此管道将序列分类到指定的任何类名中
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
📚 详细文档
模型详情
- 模型描述:roberta-large-mnli 是 RoBERTa 大模型 在 Multi-Genre Natural Language Inference (MNLI) 语料库上微调得到的模型。该模型是使用掩码语言建模 (MLM) 目标在英语文本上进行预训练的模型。
- 开发者:请参阅 GitHub 仓库 了解模型开发者信息。
- 模型类型:基于 Transformer 的语言模型
- 语言:英语
- 许可证:MIT
- 父模型:此模型是 RoBERTa 大模型的微调版本。用户应参阅 RoBERTa 大模型卡片 以获取相关信息。
- 更多信息资源:
用途
直接使用
此微调模型可用于零样本分类任务,包括零样本句子对分类(请参阅 GitHub 仓库 获取示例)和零样本序列分类。
误用和超出范围的使用
该模型不应被用于故意为人们创造敌对或疏远的环境。此外,该模型并非用于生成事实或真实反映人物或事件的内容,因此使用该模型生成此类内容超出了该模型的能力范围。
风险、局限性和偏差
⚠️ 重要提示
读者应注意,本节包含令人不安、冒犯性的内容,可能会传播历史和当前的刻板印象。
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人 (2021) 和 Bender 等人 (2021))。RoBERTa 大模型卡片 指出:“用于此模型的训练数据包含大量来自互联网的未过滤内容,远非中立。”
模型生成的预测可能包括受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。例如:
sequence_to_classify = "The CEO had a strong handshake."
candidate_labels = ['male', 'female']
hypothesis_template = "This text speaks about a {} profession."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。
训练
训练数据
该模型在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了微调。有关更多信息,请参阅 MNLI 数据卡片。
如 RoBERTa 大模型卡片 所述:
RoBERTa 模型在五个数据集的组合上进行了预训练:
- BookCorpus,一个由 11038 本未出版书籍组成的数据集;
- 英文维基百科(不包括列表、表格和标题);
- CC-News,一个包含 6300 万篇 2016 年 9 月至 2019 年 2 月期间抓取的英文新闻文章的数据集。
- OpenWebText,一个开源的 WebText 数据集的复刻版本,用于训练 GPT - 2;
- Stories,一个包含经过过滤以匹配 Winograd 模式故事风格的 CommonCrawl 数据子集的数据集。
这些数据集总共包含 160GB 的文本。
有关更多信息,请参阅 bookcorpus 数据卡片 和 wikipedia 数据卡片。
训练过程
预处理
如 RoBERTa 大模型卡片 所述:
文本使用字节版本的字节对编码 (BPE) 进行分词,词汇量大小为 50000。模型的输入采用长度为 512 的连续标记片段,这些片段可能跨越多个文档。新文档的开头用
<s>
标记,结尾用</s>
标记。每个句子的掩码过程细节如下:
- 15% 的标记被掩码。
- 在 80% 的情况下,被掩码的标记被
<mask>
替换。- 在 10% 的情况下,被掩码的标记被一个与它们替换的标记不同的随机标记替换。
- 在剩下的 10% 的情况下,被掩码的标记保持不变。
与 BERT 不同,掩码在预训练期间是动态进行的(例如,它在每个 epoch 都会改变,而不是固定的)。
预训练
同样如 RoBERTa 大模型卡片 所述:
该模型在 1024 个 V100 GPU 上训练了 500000 步,批次大小为 8000,序列长度为 512。使用的优化器是 Adam,学习率为 4e - 4,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.98\),\(\epsilon = 1e - 6\),权重衰减为 0.01,学习率在 30000 步内进行预热,之后学习率线性衰减。
评估
以下评估信息摘自相关的 RoBERTa GitHub 仓库。
测试数据、因素和指标
模型开发者报告称,该模型在以下任务和数据集上使用所列指标进行了评估:
-
数据集:GLUE (Wang 等人, 2019) 的一部分,即通用语言理解评估基准,这是一个包含 9 个数据集的集合,用于评估自然语言理解系统。具体来说,该模型在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了评估。有关更多信息,请参阅 GLUE 数据卡片 或 Wang 等人 (2019)。
- 任务:自然语言推理 (NLI)。Wang 等人 (2019) 将 MNLI 的推理任务描述为:
多体裁自然语言推理语料库 (Williams 等人, 2018) 是一个众包的句子对集合,带有文本蕴含注释。给定一个前提句子和一个假设句子,任务是预测前提是否蕴含假设(蕴含)、与假设矛盾(矛盾)或两者都不是(中立)。前提句子来自十个不同的来源,包括转录的演讲、小说和政府报告。我们使用标准测试集,我们从作者那里获得了该测试集的私有标签,并在匹配(领域内)和不匹配(跨领域)部分进行评估。我们还使用并推荐 [SNLI 语料库]((Bowman 等人, 2015)](https://arxiv.org/abs/1508.05326) 作为 550000 个辅助训练数据示例。
- 指标:准确率
-
数据集:XNLI (Conneau 等人, 2018),即 Multi-Genre Natural Language Inference (MNLI) 语料库扩展到 15 种语言:英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。有关更多信息,请参阅 XNLI 数据卡片 或 Conneau 等人 (2018)。
- 任务:翻译测试(例如,使用模型将其他语言的输入句子翻译成训练语言)
- 指标:准确率
结果
GLUE 测试结果(开发集,单模型,单任务微调):MNLI 上为 90.2
XNLI 测试结果:
任务 | 英语 | 法语 | 西班牙语 | 德语 | 希腊语 | 保加利亚语 | 俄语 | 土耳其语 | 阿拉伯语 | 越南语 | 泰语 | 中文 | 印地语 | 斯瓦希里语 | 乌尔都语 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
91.3 | 82.91 | 84.27 | 81.24 | 81.74 | 83.13 | 78.28 | 76.79 | 76.64 | 74.17 | 74.05 | 77.5 | 70.9 | 66.65 | 66.81 |
环境影响
可以使用 Lacoste 等人 (2019) 提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 提供了使用的硬件类型和时长。
属性 | 详情 |
---|---|
硬件类型 | 1024 个 V100 GPU |
使用时长 | 24 小时(一天) |
云服务提供商 | 未知 |
计算区域 | 未知 |
碳排放 | 未知 |
技术规格
有关建模架构、目标、计算基础设施和训练细节的详细信息,请参阅 相关论文。
引用信息
@article{liu2019roberta,
title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and
Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and
Luke Zettlemoyer and Veselin Stoyanov},
journal={arXiv preprint arXiv:1907.11692},
year = {2019},
}
🔧 技术细节
文档未提及足够的技术实现细节,故跳过此章节。
📄 许可证
该模型使用的许可证为 MIT。



