🚀 roberta-news
roberta-news是一个基于新闻数据预训练的模型,与roberta-base有相似的规模、架构等,能用于掩码语言建模任务,为新闻相关的文本处理提供支持。
🚀 快速开始
该模型可结合HuggingFace的pipeline使用,以下是使用示例:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='andyreas/roberta-gen-news')
>>> print(unmasker("The weather forecast for <mask> is rain.", top_k=5))
[{'score': 0.06107175350189209,
'token': 1083,
'token_str': ' Friday',
'sequence': 'The weather forecast for Friday is rain.'},
{'score': 0.04649643227458,
'token': 1359,
'token_str': ' Saturday',
'sequence': 'The weather forecast for Saturday is rain.'
},
{'score': 0.04370906576514244,
'token': 1772,
'token_str': ' weekend',
'sequence': 'The weather forecast for weekend is rain.'},
{'score': 0.04101456701755524,
'token': 1133,
'token_str': ' Wednesday',
'sequence': 'The weather forecast for Wednesday is rain.'},
{'score': 0.03785591572523117,
'token': 1234,
'token_str': ' Sunday',
'sequence': 'The weather forecast for Sunday is rain.'}]
✨ 主要特性
- 该模型与 roberta-base 类似,在规模、架构、分词器算法和掩码语言建模目标上相同。
- 模型参数随机初始化,并仅使用新闻数据集从头开始预训练。
📦 安装指南
文档未提及安装步骤,暂无法提供。
📚 详细文档
模型描述
该模型与 roberta-base 类似,在规模、架构、分词器算法和掩码语言建模目标上相同。 RobertaForMaskedLM 模型的参数被随机初始化,并仅使用新闻数据集从头开始预训练。
训练数据
该模型的训练数据包含来自约90个新闻媒体的近1300万篇英文文章,每篇文章包含标题和副标题。这些文章从 Sciride News Mine 收集而来,随后对数据进行了一些额外的清理,例如移除重复文章,以及移除标题前后出现的重复“媒体标签”,如 “| Daily Mail Online”。
清理后的数据集可在huggingface上找到 点击此处。roberta-news在链接数据集的一个大子集(12,928,029 / 13,118,041)上进行预训练,在预训练前对数据进行了一些重新打包以避免突然截断。
训练
训练进行了约3个轮次,使用的学习率为2e - 5,在约2450K的总步数中设置了50K的热身步数。
偏差
和其他模型一样,roberta-news会根据其训练数据产生偏差。
🔧 技术细节
训练进行了约3个轮次,使用的学习率为2e - 5,在约2450K的总步数中设置了50K的热身步数。
📄 许可证
本项目采用MIT许可证。