mk-roberta-base開源模型 - 支持馬其頓語，可進行區分大小寫的語義理解

首頁

Mk Roberta Base

由macedonizer開發

基於馬其頓語訓練的掩碼語言建模預訓練模型，區分大小寫處理

大型語言模型其他開源協議:Apache-2.0 #馬其頓語預訓練 #掩碼語言建模 #雙向語境理解

下載量 18

發布時間 : 3/2/2022

模型概述

該模型是通過自監督方式在大規模馬其頓語文本上預訓練的transformer模型，採用掩碼語言建模目標，學習馬其頓語的雙向表徵，適用於下游任務的微調。

模型特點

雙向語境理解

通過遮蔽語言建模目標實現雙向語境表徵，優於傳統單向語言模型

馬其頓語優化

專門針對馬其頓語特性訓練，包含大小寫敏感處理能力

大規模預訓練

基於馬其頓語維基百科和時政新聞數據集訓練，覆蓋廣泛領域

模型能力

文本特徵提取

掩碼詞彙預測

下游任務微調

使用案例

文本理解

序列分類

用於情感分析或主題分類任務

命名實體識別

識別馬其頓語文本中的人名、地名等實體

語言教育

語法填空

生成馬其頓語語法練習材料

示例顯示能準確預測'Скопје е главен град'等常見表達

🚀 MK - RoBERTa基礎模型

MK - RoBERTa基礎模型是一個在馬其頓語語料上使用掩碼語言建模（MLM）目標進行預訓練的模型。它能夠學習句子的雙向表示，可用於提取對下游任務有用的特徵。

🚀 快速開始

你可以直接使用此模型進行掩碼語言建模任務，以下是使用示例：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='macedonizer/mk-roberta-base')
unmasker("Скопје е <mask> град на Македонија.")

[{'sequence': 'Скопје е главен град на Македонија.',
    'score': 0.5900368094444275,
    'token': 2782,
    'token_str': ' главен'},
  {'sequence': 'Скопје е главниот град на Македонија.',
   'score': 0.1789761781692505,
   'token': 3177,
   'token_str': ' главниот'},
  {'sequence': 'Скопје е административен град на Македонија.',
   'score': 0.01679774932563305,
   'token': 9563,
   'token_str': ' административен'},
  {'sequence': 'Скопје е мал град на Македонија.',
   'score': 0.016263898462057114,
   'token': 2473,
   'token_str': ' мал'},
  {'sequence': 'Скопје е најголемиот град на Македонија.',
   'score': 0.01312252413481474,
   'token': 4271,
   'token_str': ' најголемиот'}]

以下是在PyTorch中使用此模型獲取給定文本特徵的方法：

from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('macedonizer/mk-roberta-base')
model = RobertaModel.from_pretrained('macedonizer/mk-roberta-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

✨ 主要特性

雙向表示學習：通過掩碼語言建模（MLM）目標，模型可以學習句子的雙向表示，這與傳統的循環神經網絡（RNN）和自迴歸模型（如GPT）不同。
多任務適用性：學習到的語言內部表示可用於提取對下游任務有用的特徵，如序列分類、標記分類或問答等。
大小寫敏感：該模型區分大小寫，例如“скопје”和“Скопје”是不同的。

📚 詳細文檔

模型描述

RoBERTa是一個基於Transformer架構的模型，它以自監督的方式在大量馬其頓語語料上進行預訓練。具體來說，它使用掩碼語言建模（MLM）目標進行預訓練：模型會隨機掩蓋輸入句子中15%的單詞，然後處理整個掩碼句子並預測被掩蓋的單詞。這種方式使模型能夠學習句子的雙向表示，與傳統的RNN和自迴歸模型不同。通過這種方式，模型學習到馬其頓語的內部表示，可用於下游任務特徵提取。

預期用途和侷限性

預期用途：可以使用原始模型進行掩碼語言建模，但主要用於下游任務的微調。該模型主要針對需要使用整個句子（可能是掩碼後的句子）進行決策的任務進行微調，如序列分類、標記分類或問答。
侷限性：對於文本生成等任務，此模型不太適用，建議使用如GPT2等模型。

📄 許可證

本模型採用Apache - 2.0許可證。

🔍 模型信息

屬性	詳情
模型類型	基於掩碼語言建模（MLM）預訓練的RoBERTa模型
訓練數據	wiki - mk、time - mk - news - 2010 - 2015
縮略圖	https://huggingface.co/macedonizer/mk-roberta-base/blaze-koneski.jpg
標籤	masked - lm