🚀 roberta-news
roberta-news是一個基於新聞數據預訓練的模型,與roberta-base有相似的規模、架構等,能用於掩碼語言建模任務,為新聞相關的文本處理提供支持。
🚀 快速開始
該模型可結合HuggingFace的pipeline使用,以下是使用示例:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='andyreas/roberta-gen-news')
>>> print(unmasker("The weather forecast for <mask> is rain.", top_k=5))
[{'score': 0.06107175350189209,
'token': 1083,
'token_str': ' Friday',
'sequence': 'The weather forecast for Friday is rain.'},
{'score': 0.04649643227458,
'token': 1359,
'token_str': ' Saturday',
'sequence': 'The weather forecast for Saturday is rain.'
},
{'score': 0.04370906576514244,
'token': 1772,
'token_str': ' weekend',
'sequence': 'The weather forecast for weekend is rain.'},
{'score': 0.04101456701755524,
'token': 1133,
'token_str': ' Wednesday',
'sequence': 'The weather forecast for Wednesday is rain.'},
{'score': 0.03785591572523117,
'token': 1234,
'token_str': ' Sunday',
'sequence': 'The weather forecast for Sunday is rain.'}]
✨ 主要特性
- 該模型與 roberta-base 類似,在規模、架構、分詞器算法和掩碼語言建模目標上相同。
- 模型參數隨機初始化,並僅使用新聞數據集從頭開始預訓練。
📦 安裝指南
文檔未提及安裝步驟,暫無法提供。
📚 詳細文檔
模型描述
該模型與 roberta-base 類似,在規模、架構、分詞器算法和掩碼語言建模目標上相同。 RobertaForMaskedLM 模型的參數被隨機初始化,並僅使用新聞數據集從頭開始預訓練。
訓練數據
該模型的訓練數據包含來自約90個新聞媒體的近1300萬篇英文文章,每篇文章包含標題和副標題。這些文章從 Sciride News Mine 收集而來,隨後對數據進行了一些額外的清理,例如移除重複文章,以及移除標題前後出現的重複“媒體標籤”,如 “| Daily Mail Online”。
清理後的數據集可在huggingface上找到 點擊此處。roberta-news在鏈接數據集的一個大子集(12,928,029 / 13,118,041)上進行預訓練,在預訓練前對數據進行了一些重新打包以避免突然截斷。
訓練
訓練進行了約3個輪次,使用的學習率為2e - 5,在約2450K的總步數中設置了50K的熱身步數。
偏差
和其他模型一樣,roberta-news會根據其訓練數據產生偏差。
🔧 技術細節
訓練進行了約3個輪次,使用的學習率為2e - 5,在約2450K的總步數中設置了50K的熱身步數。
📄 許可證
本項目採用MIT許可證。