🚀 MK - RoBERTa基礎模型
MK - RoBERTa基礎模型是一個在馬其頓語語料上使用掩碼語言建模(MLM)目標進行預訓練的模型。它能夠學習句子的雙向表示,可用於提取對下游任務有用的特徵。
🚀 快速開始
你可以直接使用此模型進行掩碼語言建模任務,以下是使用示例:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='macedonizer/mk-roberta-base')
unmasker("Скопје е <mask> град на Македонија.")
[{'sequence': 'Скопје е главен град на Македонија.',
'score': 0.5900368094444275,
'token': 2782,
'token_str': ' главен'},
{'sequence': 'Скопје е главниот град на Македонија.',
'score': 0.1789761781692505,
'token': 3177,
'token_str': ' главниот'},
{'sequence': 'Скопје е административен град на Македонија.',
'score': 0.01679774932563305,
'token': 9563,
'token_str': ' административен'},
{'sequence': 'Скопје е мал град на Македонија.',
'score': 0.016263898462057114,
'token': 2473,
'token_str': ' мал'},
{'sequence': 'Скопје е најголемиот град на Македонија.',
'score': 0.01312252413481474,
'token': 4271,
'token_str': ' најголемиот'}]
以下是在PyTorch中使用此模型獲取給定文本特徵的方法:
from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('macedonizer/mk-roberta-base')
model = RobertaModel.from_pretrained('macedonizer/mk-roberta-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
✨ 主要特性
- 雙向表示學習:通過掩碼語言建模(MLM)目標,模型可以學習句子的雙向表示,這與傳統的循環神經網絡(RNN)和自迴歸模型(如GPT)不同。
- 多任務適用性:學習到的語言內部表示可用於提取對下游任務有用的特徵,如序列分類、標記分類或問答等。
- 大小寫敏感:該模型區分大小寫,例如“скопје”和“Скопје”是不同的。
📚 詳細文檔
模型描述
RoBERTa是一個基於Transformer架構的模型,它以自監督的方式在大量馬其頓語語料上進行預訓練。具體來說,它使用掩碼語言建模(MLM)目標進行預訓練:模型會隨機掩蓋輸入句子中15%的單詞,然後處理整個掩碼句子並預測被掩蓋的單詞。這種方式使模型能夠學習句子的雙向表示,與傳統的RNN和自迴歸模型不同。通過這種方式,模型學習到馬其頓語的內部表示,可用於下游任務特徵提取。
預期用途和侷限性
- 預期用途:可以使用原始模型進行掩碼語言建模,但主要用於下游任務的微調。該模型主要針對需要使用整個句子(可能是掩碼後的句子)進行決策的任務進行微調,如序列分類、標記分類或問答。
- 侷限性:對於文本生成等任務,此模型不太適用,建議使用如GPT2等模型。
📄 許可證
本模型採用Apache - 2.0許可證。
🔍 模型信息