🚀 MK - RoBERTa基础模型
MK - RoBERTa基础模型是一个在马其顿语语料上使用掩码语言建模(MLM)目标进行预训练的模型。它能够学习句子的双向表示,可用于提取对下游任务有用的特征。
🚀 快速开始
你可以直接使用此模型进行掩码语言建模任务,以下是使用示例:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='macedonizer/mk-roberta-base')
unmasker("Скопје е <mask> град на Македонија.")
[{'sequence': 'Скопје е главен град на Македонија.',
'score': 0.5900368094444275,
'token': 2782,
'token_str': ' главен'},
{'sequence': 'Скопје е главниот град на Македонија.',
'score': 0.1789761781692505,
'token': 3177,
'token_str': ' главниот'},
{'sequence': 'Скопје е административен град на Македонија.',
'score': 0.01679774932563305,
'token': 9563,
'token_str': ' административен'},
{'sequence': 'Скопје е мал град на Македонија.',
'score': 0.016263898462057114,
'token': 2473,
'token_str': ' мал'},
{'sequence': 'Скопје е најголемиот град на Македонија.',
'score': 0.01312252413481474,
'token': 4271,
'token_str': ' најголемиот'}]
以下是在PyTorch中使用此模型获取给定文本特征的方法:
from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('macedonizer/mk-roberta-base')
model = RobertaModel.from_pretrained('macedonizer/mk-roberta-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
✨ 主要特性
- 双向表示学习:通过掩码语言建模(MLM)目标,模型可以学习句子的双向表示,这与传统的循环神经网络(RNN)和自回归模型(如GPT)不同。
- 多任务适用性:学习到的语言内部表示可用于提取对下游任务有用的特征,如序列分类、标记分类或问答等。
- 大小写敏感:该模型区分大小写,例如“скопје”和“Скопје”是不同的。
📚 详细文档
模型描述
RoBERTa是一个基于Transformer架构的模型,它以自监督的方式在大量马其顿语语料上进行预训练。具体来说,它使用掩码语言建模(MLM)目标进行预训练:模型会随机掩盖输入句子中15%的单词,然后处理整个掩码句子并预测被掩盖的单词。这种方式使模型能够学习句子的双向表示,与传统的RNN和自回归模型不同。通过这种方式,模型学习到马其顿语的内部表示,可用于下游任务特征提取。
预期用途和局限性
- 预期用途:可以使用原始模型进行掩码语言建模,但主要用于下游任务的微调。该模型主要针对需要使用整个句子(可能是掩码后的句子)进行决策的任务进行微调,如序列分类、标记分类或问答。
- 局限性:对于文本生成等任务,此模型不太适用,建议使用如GPT2等模型。
📄 许可证
本模型采用Apache - 2.0许可证。
🔍 模型信息