🚀 MSRoBERTa
MSRoBERTa 是针对微软句子完成挑战
微调的 RoBERTa MLM 模型。该模型遵循 Roberta-base
模型,区分大小写。
🚀 快速开始
在运行下面的命令之前,请确保你已经运行 !pip install transformers
命令来安装 transformers
库。
✨ 主要特性
- 基于 RoBERTa 模型进行微调,适用于微软句子完成挑战。
- 区分大小写,遵循
Roberta-base
模型的特性。
- 通过自监督学习在大量英文数据语料库上进行预训练,学习到英文语言的双向表示。
📦 安装指南
运行以下命令安装 transformers
库:
!pip install transformers
💻 使用示例
基础用法
你可以直接使用这个模型进行掩码语言建模:
from transformers import pipeline,AutoModelForMaskedLM,AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nkoh01/MSRoberta")
model = AutoModelForMaskedLM.from_pretrained("nkoh01/MSRoberta")
unmasker = pipeline(
"fill-mask",
model=model,
tokenizer=tokenizer
)
unmasker("Hello, it is a <mask> to meet you.")
[{'score': 0.9508683085441589,
'sequence': 'hello, it is a pleasure to meet you.',
'token': 10483,
'token_str': ' pleasure'},
{'score': 0.015089659951627254,
'sequence': 'hello, it is a privilege to meet you.',
'token': 9951,
'token_str': ' privilege'},
{'score': 0.013942377641797066,
'sequence': 'hello, it is a joy to meet you.',
'token': 5823,
'token_str': ' joy'},
{'score': 0.006964420434087515,
'sequence': 'hello, it is a delight to meet you.',
'token': 13213,
'token_str': ' delight'},
{'score': 0.0024567877408117056,
'sequence': 'hello, it is a honour to meet you.',
'token': 6671,
'token_str': ' honour'}]
📚 详细文档
模型描述(摘自:此处)
RoBERTa 是一个以自监督方式在大量英文数据语料库上预训练的 Transformer 模型。这意味着它仅在原始文本上进行预训练,没有人工以任何方式对其进行标注(这就是为什么它可以使用大量公开可用的数据),并通过自动过程从这些文本中生成输入和标签。
更准确地说,它是通过掩码语言建模(MLM)目标进行预训练的。对于一个句子,模型会随机掩码输入中 15% 的单词,然后将整个掩码后的句子输入模型,并预测被掩码的单词。这与传统的循环神经网络(RNN)不同,RNN 通常是逐个处理单词,也与像 GPT 这样的自回归模型不同,自回归模型会在内部掩码未来的标记。这使得模型能够学习到句子的双向表示。
通过这种方式,模型学习到英文语言的内部表示,然后可用于提取对下游任务有用的特征:例如,如果你有一个带标签的句子数据集,你可以使用 BERT 模型生成的特征作为输入来训练一个标准分类器。
🔧 技术细节
由于“Bias and limitations”部分内容为“Under construction”,过于简略,因此跳过该章节。