SportsBERT开源体育领域模型 - 基于新闻语料库支持体育NLP任务

Sportsbert

由 microsoft 开发

SportsBERT 是一个专注于体育领域的 BERT 模型，基于体育新闻语料库训练，适用于体育相关的自然语言处理任务。

下载量 3,361

发布时间 : 3/2/2022

模型简介

SportsBERT 是基于 BERT 架构的变换器模型，专门针对体育领域训练。其训练语料包含过去四年的体育类新闻文章，涵盖多种运动项目，约800万条训练样本。模型的核心功能是预测被遮蔽的词汇（掩码语言建模任务），并可进一步微调用于文本分类、实体抽取等下游任务。

模型特点

体育领域专用

模型专门针对体育领域训练，包含更多体育相关词汇的分词器，适用于体育相关的自然语言处理任务。

大规模训练数据

训练语料包含过去四年从网络抓取的体育类新闻文章，约800万条训练样本，涵盖多种运动项目。

基于 BERT 架构

模型采用 BERT 基础版（uncased）架构，具有强大的语言理解和生成能力。

模型能力

填充掩码

文本分类

实体抽取

使用案例

体育新闻分析

体育新闻分类

对体育新闻进行分类，例如足球、篮球、网球等。

体育实体识别

识别体育新闻中的运动员、球队、比赛等实体。

体育内容生成

体育新闻摘要生成

生成体育新闻的摘要或标题。

🚀 SportsBERT：体育领域专属的BERT模型

SportsBERT是专门为体育领域打造的基于BERT的Transformer模型。在自然语言处理任务中，预训练大模型如BERT、RoBERTa等已成为自然语言理解和处理任务的先进模型。不过，这些模型通常是在来自网络或Quora、Wikipedia等知识库的通用文章语料库上进行训练，涵盖了各个领域和背景的文章。而在医学等特定领域，训练特定领域的语言模型已被证明比通用预训练模型表现更优。基于此，我们着手训练了这个专注于体育领域的SportsBERT模型。

🚀 快速开始

SportsBERT是一个从零开始训练的BERT模型，特别聚焦于体育文章。训练语料库包含了过去4年从网络上抓取的体育相关新闻文章，涵盖了足球、篮球、曲棍球、板球、英式足球、棒球、奥运会、网球、高尔夫、综合格斗等项目的新闻。大约使用了800万个训练样本对该模型进行训练。同时，我们还从零开始训练了一个分词器，以便在词汇表中纳入更多与体育相关的标记。

该模型采用了BERT基础无大小写区分的架构，并在四块V100 GPU上进行训练。它是一个基于掩码语言模型（MLM）的Transformer模型，其主要任务是填充缺失的掩码标记。例如： “Anthony Davis is a [MASK]” 模型会按置信度从高到低输出 “legend”（传奇）、“superstar”（超级巨星）、“rookie”（新秀）、“star”（明星）、“king”（王者）等标记。

这个模型随后可用于微调其他任务，如分类、实体提取等。

✨ 主要特性

领域针对性强：专门针对体育领域的文章进行训练，在体育相关的自然语言处理任务中表现更出色。
定制化分词器：训练了专门的分词器，包含更多体育相关的词汇，能更好地处理体育领域的文本。
可扩展性：可以基于该模型进行微调，以适应不同的体育相关自然语言处理任务。

📚 详细文档

模型信息

属性	详情
模型类型	基于BERT的Transformer模型
训练数据	过去4年网络上抓取的体育新闻文章，约800万个训练样本
架构	BERT基础无大小写区分架构
训练设备	四块V100 GPU
主要任务	掩码语言模型（填充缺失的掩码标记）