🚀 MSRoBERTa
MSRoBERTa 是針對微軟句子完成挑戰
微調的 RoBERTa MLM 模型。該模型遵循 Roberta-base
模型,區分大小寫。
🚀 快速開始
在運行下面的命令之前,請確保你已經運行 !pip install transformers
命令來安裝 transformers
庫。
✨ 主要特性
- 基於 RoBERTa 模型進行微調,適用於微軟句子完成挑戰。
- 區分大小寫,遵循
Roberta-base
模型的特性。
- 通過自監督學習在大量英文數據語料庫上進行預訓練,學習到英文語言的雙向表示。
📦 安裝指南
運行以下命令安裝 transformers
庫:
!pip install transformers
💻 使用示例
基礎用法
你可以直接使用這個模型進行掩碼語言建模:
from transformers import pipeline,AutoModelForMaskedLM,AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nkoh01/MSRoberta")
model = AutoModelForMaskedLM.from_pretrained("nkoh01/MSRoberta")
unmasker = pipeline(
"fill-mask",
model=model,
tokenizer=tokenizer
)
unmasker("Hello, it is a <mask> to meet you.")
[{'score': 0.9508683085441589,
'sequence': 'hello, it is a pleasure to meet you.',
'token': 10483,
'token_str': ' pleasure'},
{'score': 0.015089659951627254,
'sequence': 'hello, it is a privilege to meet you.',
'token': 9951,
'token_str': ' privilege'},
{'score': 0.013942377641797066,
'sequence': 'hello, it is a joy to meet you.',
'token': 5823,
'token_str': ' joy'},
{'score': 0.006964420434087515,
'sequence': 'hello, it is a delight to meet you.',
'token': 13213,
'token_str': ' delight'},
{'score': 0.0024567877408117056,
'sequence': 'hello, it is a honour to meet you.',
'token': 6671,
'token_str': ' honour'}]
📚 詳細文檔
模型描述(摘自:此處)
RoBERTa 是一個以自監督方式在大量英文數據語料庫上預訓練的 Transformer 模型。這意味著它僅在原始文本上進行預訓練,沒有人工以任何方式對其進行標註(這就是為什麼它可以使用大量公開可用的數據),並通過自動過程從這些文本中生成輸入和標籤。
更準確地說,它是通過掩碼語言建模(MLM)目標進行預訓練的。對於一個句子,模型會隨機掩碼輸入中 15% 的單詞,然後將整個掩碼後的句子輸入模型,並預測被掩碼的單詞。這與傳統的循環神經網絡(RNN)不同,RNN 通常是逐個處理單詞,也與像 GPT 這樣的自迴歸模型不同,自迴歸模型會在內部掩碼未來的標記。這使得模型能夠學習到句子的雙向表示。
通過這種方式,模型學習到英文語言的內部表示,然後可用於提取對下游任務有用的特徵:例如,如果你有一個帶標籤的句子數據集,你可以使用 BERT 模型生成的特徵作為輸入來訓練一個標準分類器。
🔧 技術細節
由於“Bias and limitations”部分內容為“Under construction”,過於簡略,因此跳過該章節。