mk-roberta-base开源模型 - 支持马其顿语，可进行区分大小写的语义理解

首页

Mk Roberta Base

由 macedonizer 开发

基于马其顿语训练的掩码语言建模预训练模型，区分大小写处理

大型语言模型其他开源协议:Apache-2.0 #马其顿语预训练 #掩码语言建模 #双向语境理解

下载量 18

发布时间 : 3/2/2022

模型简介

该模型是通过自监督方式在大规模马其顿语文本上预训练的transformer模型，采用掩码语言建模目标，学习马其顿语的双向表征，适用于下游任务的微调。

模型特点

双向语境理解

通过遮蔽语言建模目标实现双向语境表征，优于传统单向语言模型

马其顿语优化

专门针对马其顿语特性训练，包含大小写敏感处理能力

大规模预训练

基于马其顿语维基百科和时政新闻数据集训练，覆盖广泛领域

模型能力

文本特征提取

掩码词汇预测

下游任务微调

使用案例

文本理解

序列分类

用于情感分析或主题分类任务

命名实体识别

识别马其顿语文本中的人名、地名等实体

语言教育

语法填空

生成马其顿语语法练习材料

示例显示能准确预测'Скопје е главен град'等常见表达

🚀 MK - RoBERTa基础模型

MK - RoBERTa基础模型是一个在马其顿语语料上使用掩码语言建模（MLM）目标进行预训练的模型。它能够学习句子的双向表示，可用于提取对下游任务有用的特征。

🚀 快速开始

你可以直接使用此模型进行掩码语言建模任务，以下是使用示例：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='macedonizer/mk-roberta-base')
unmasker("Скопје е <mask> град на Македонија.")

[{'sequence': 'Скопје е главен град на Македонија.',
    'score': 0.5900368094444275,
    'token': 2782,
    'token_str': ' главен'},
  {'sequence': 'Скопје е главниот град на Македонија.',
   'score': 0.1789761781692505,
   'token': 3177,
   'token_str': ' главниот'},
  {'sequence': 'Скопје е административен град на Македонија.',
   'score': 0.01679774932563305,
   'token': 9563,
   'token_str': ' административен'},
  {'sequence': 'Скопје е мал град на Македонија.',
   'score': 0.016263898462057114,
   'token': 2473,
   'token_str': ' мал'},
  {'sequence': 'Скопје е најголемиот град на Македонија.',
   'score': 0.01312252413481474,
   'token': 4271,
   'token_str': ' најголемиот'}]

以下是在PyTorch中使用此模型获取给定文本特征的方法：

from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('macedonizer/mk-roberta-base')
model = RobertaModel.from_pretrained('macedonizer/mk-roberta-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

✨ 主要特性

双向表示学习：通过掩码语言建模（MLM）目标，模型可以学习句子的双向表示，这与传统的循环神经网络（RNN）和自回归模型（如GPT）不同。
多任务适用性：学习到的语言内部表示可用于提取对下游任务有用的特征，如序列分类、标记分类或问答等。
大小写敏感：该模型区分大小写，例如“скопје”和“Скопје”是不同的。

📚 详细文档

模型描述

RoBERTa是一个基于Transformer架构的模型，它以自监督的方式在大量马其顿语语料上进行预训练。具体来说，它使用掩码语言建模（MLM）目标进行预训练：模型会随机掩盖输入句子中15%的单词，然后处理整个掩码句子并预测被掩盖的单词。这种方式使模型能够学习句子的双向表示，与传统的RNN和自回归模型不同。通过这种方式，模型学习到马其顿语的内部表示，可用于下游任务特征提取。

预期用途和局限性

预期用途：可以使用原始模型进行掩码语言建模，但主要用于下游任务的微调。该模型主要针对需要使用整个句子（可能是掩码后的句子）进行决策的任务进行微调，如序列分类、标记分类或问答。
局限性：对于文本生成等任务，此模型不太适用，建议使用如GPT2等模型。

📄 许可证

本模型采用Apache - 2.0许可证。

🔍 模型信息

属性	详情
模型类型	基于掩码语言建模（MLM）预训练的RoBERTa模型
训练数据	wiki - mk、time - mk - news - 2010 - 2015
缩略图	https://huggingface.co/macedonizer/mk-roberta-base/blaze-koneski.jpg
标签	masked - lm