🚀 RoBERTa-large 西班牙语假新闻检测模型
该模型基于 PlanTL-GOB-ES/roberta-large-bne 微调而来,用于检测西班牙语假新闻,在相关竞赛中表现出色。
🚀 快速开始
本模型是 PlanTL-GOB-ES/roberta-large-bne 在 西班牙语假新闻数据集 上的微调版本。
它在评估集上取得了以下成绩:
- 损失值:1.7474
- F1 值:0.7717
- 准确率:0.7797
基于 排行榜 数据,我们的模型 优于 最佳模型(F1 得分为 0.7666)。
✨ 主要特性
- 语言适配:基于 RoBERTa-large 模型,专为西班牙语设计,使用至今已知的最大西班牙语语料库进行预训练。
- 任务明确:专注于假新闻检测任务,通过分析新闻的文本表示来判断新闻真假。
- 数据丰富:训练和评估数据来源于多渠道收集的西班牙语新闻语料库,涵盖多种新闻主题。
📚 详细文档
模型描述
RoBERTa-large-bne 是一个基于 Transformer 的西班牙语掩码语言模型。它基于 RoBERTa large 模型构建,并使用了迄今为止已知的最大西班牙语语料库进行预训练,该语料库总计 570GB 经过清理和去重的文本,这些文本来自西班牙国家图书馆(Biblioteca Nacional de España)在 2009 年至 2019 年期间的网络爬取数据。
预期用途与限制
本任务的目标是通过分析新闻的文本表示来判断新闻是假新闻还是真实新闻。
训练和评估数据
FakeDeS:西班牙语假新闻检测共享任务
假新闻提供的信息旨在出于不同目的操纵人们,如恐怖主义、政治选举、广告、讽刺等。在社交网络中,错误信息会在几秒钟内传播给数千人,因此有必要开发工具来帮助控制网络上的虚假信息量。类似的任务包括社交网络中的流行度检测和该媒体中消息的主观性检测。假新闻检测系统旨在帮助用户检测和过滤潜在的欺骗性新闻。对故意误导性新闻的预测基于对先前审核过的真实和欺诈性新闻的分析,即带注释的语料库。
西班牙语假新闻语料库是从多个网络来源收集的新闻集合:知名报纸网站、媒体公司网站、专门验证假新闻的特殊网站、被不同记者指定为经常发布假新闻的网站。这些新闻于 2018 年 1 月至 7 月收集,所有新闻均用墨西哥西班牙语撰写。
该语料库在 2018 年 1 月至 7 月期间从不同来源收集了 971 条新闻:
- 知名报纸网站
- 媒体公司网站
- 专门验证假新闻的特殊网站
- 被不同记者指定为经常发布假新闻的网站
该语料库仅考虑两个类别(真实或虚假)进行标记,遵循手动标记过程:
- 如果有证据表明新闻已在可靠网站上发布,则该新闻为真实新闻。
- 如果有来自可靠网站或专门检测欺骗性内容的网站的新闻与之矛盾,或者除来源外未找到关于该新闻的其他证据,则该新闻为假新闻。
- 我们收集了一个事件的真假新闻对,因此语料库中的新闻存在相关性。
为了避免主题偏差,语料库涵盖了 9 个不同主题的新闻:科学、体育、经济、教育、娱乐、政治、健康、安全和社会。如下表所示,假新闻和真实新闻的数量相当平衡。大约 70% 将用作训练语料库(676 条新闻),30% 用作测试语料库(295 条新闻)。
训练语料库包含以下信息:
- 类别:假/真
- 主题:科学/体育/经济/教育/娱乐/政治/健康/安全/社会
- 标题:新闻的标题
- 文本:新闻的完整文本
- 链接:新闻发布的 URL
训练过程
待补充
训练超参数
训练期间使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:4
- 评估批次大小:4
- 随机种子:42
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 训练轮数:10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
F1 值 |
准确率 |
无记录 |
1.0 |
243 |
0.6282 |
0.7513 |
0.75 |
无记录 |
2.0 |
486 |
0.9600 |
0.7346 |
0.7587 |
0.5099 |
3.0 |
729 |
1.2128 |
0.7656 |
0.7570 |
0.5099 |
4.0 |
972 |
1.4001 |
0.7606 |
0.7622 |
0.1949 |
5.0 |
1215 |
1.9748 |
0.6475 |
0.7220 |
0.1949 |
6.0 |
1458 |
1.7386 |
0.7706 |
0.7710 |
0.0263 |
7.0 |
1701 |
1.7474 |
0.7717 |
0.7797 |
0.0263 |
8.0 |
1944 |
1.8114 |
0.7695 |
0.7780 |
0.0046 |
9.0 |
2187 |
1.8444 |
0.7709 |
0.7797 |
0.0046 |
10.0 |
2430 |
1.8552 |
0.7709 |
0.7797 |
💻 使用示例
基础用法
from transformers import pipeline
ckpt = "Narrativaai/fake-news-detection-spanish"
classifier = pipeline("text-classification", model=ckpt)
headline = "Your headline"
text = "Your article text here..."
classifier(headline + " [SEP] " + text)
🔧 技术细节
框架版本
- Transformers 4.11.3
- Pytorch 1.9.0+cu111
- Datasets 1.14.0
- Tokenizers 0.10.3
模型创建者
由 Narrativa 创建。
关于 Narrativa
自然语言生成(NLG)| Gabriele 是我们基于机器学习的平台,用于构建和部署自然语言解决方案。#NLG #AI