🚀 RoBERTa-large 西班牙語假新聞檢測模型
該模型基於 PlanTL-GOB-ES/roberta-large-bne 微調而來,用於檢測西班牙語假新聞,在相關競賽中表現出色。
🚀 快速開始
本模型是 PlanTL-GOB-ES/roberta-large-bne 在 西班牙語假新聞數據集 上的微調版本。
它在評估集上取得了以下成績:
- 損失值:1.7474
- F1 值:0.7717
- 準確率:0.7797
基於 排行榜 數據,我們的模型 優於 最佳模型(F1 得分為 0.7666)。
✨ 主要特性
- 語言適配:基於 RoBERTa-large 模型,專為西班牙語設計,使用至今已知的最大西班牙語語料庫進行預訓練。
- 任務明確:專注於假新聞檢測任務,通過分析新聞的文本表示來判斷新聞真假。
- 數據豐富:訓練和評估數據來源於多渠道收集的西班牙語新聞語料庫,涵蓋多種新聞主題。
📚 詳細文檔
模型描述
RoBERTa-large-bne 是一個基於 Transformer 的西班牙語掩碼語言模型。它基於 RoBERTa large 模型構建,並使用了迄今為止已知的最大西班牙語語料庫進行預訓練,該語料庫總計 570GB 經過清理和去重的文本,這些文本來自西班牙國家圖書館(Biblioteca Nacional de España)在 2009 年至 2019 年期間的網絡爬取數據。
預期用途與限制
本任務的目標是通過分析新聞的文本表示來判斷新聞是假新聞還是真實新聞。
訓練和評估數據
FakeDeS:西班牙語假新聞檢測共享任務
假新聞提供的信息旨在出於不同目的操縱人們,如恐怖主義、政治選舉、廣告、諷刺等。在社交網絡中,錯誤信息會在幾秒鐘內傳播給數千人,因此有必要開發工具來幫助控制網絡上的虛假信息量。類似的任務包括社交網絡中的流行度檢測和該媒體中消息的主觀性檢測。假新聞檢測系統旨在幫助用戶檢測和過濾潛在的欺騙性新聞。對故意誤導性新聞的預測基於對先前審核過的真實和欺詐性新聞的分析,即帶註釋的語料庫。
西班牙語假新聞語料庫是從多個網絡來源收集的新聞集合:知名報紙網站、媒體公司網站、專門驗證假新聞的特殊網站、被不同記者指定為經常發佈假新聞的網站。這些新聞於 2018 年 1 月至 7 月收集,所有新聞均用墨西哥西班牙語撰寫。
該語料庫在 2018 年 1 月至 7 月期間從不同來源收集了 971 條新聞:
- 知名報紙網站
- 媒體公司網站
- 專門驗證假新聞的特殊網站
- 被不同記者指定為經常發佈假新聞的網站
該語料庫僅考慮兩個類別(真實或虛假)進行標記,遵循手動標記過程:
- 如果有證據表明新聞已在可靠網站上發佈,則該新聞為真實新聞。
- 如果有來自可靠網站或專門檢測欺騙性內容的網站的新聞與之矛盾,或者除來源外未找到關於該新聞的其他證據,則該新聞為假新聞。
- 我們收集了一個事件的真假新聞對,因此語料庫中的新聞存在相關性。
為了避免主題偏差,語料庫涵蓋了 9 個不同主題的新聞:科學、體育、經濟、教育、娛樂、政治、健康、安全和社會。如下表所示,假新聞和真實新聞的數量相當平衡。大約 70% 將用作訓練語料庫(676 條新聞),30% 用作測試語料庫(295 條新聞)。
訓練語料庫包含以下信息:
- 類別:假/真
- 主題:科學/體育/經濟/教育/娛樂/政治/健康/安全/社會
- 標題:新聞的標題
- 文本:新聞的完整文本
- 鏈接:新聞發佈的 URL
訓練過程
待補充
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:4
- 評估批次大小:4
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 訓練輪數:10
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
F1 值 |
準確率 |
無記錄 |
1.0 |
243 |
0.6282 |
0.7513 |
0.75 |
無記錄 |
2.0 |
486 |
0.9600 |
0.7346 |
0.7587 |
0.5099 |
3.0 |
729 |
1.2128 |
0.7656 |
0.7570 |
0.5099 |
4.0 |
972 |
1.4001 |
0.7606 |
0.7622 |
0.1949 |
5.0 |
1215 |
1.9748 |
0.6475 |
0.7220 |
0.1949 |
6.0 |
1458 |
1.7386 |
0.7706 |
0.7710 |
0.0263 |
7.0 |
1701 |
1.7474 |
0.7717 |
0.7797 |
0.0263 |
8.0 |
1944 |
1.8114 |
0.7695 |
0.7780 |
0.0046 |
9.0 |
2187 |
1.8444 |
0.7709 |
0.7797 |
0.0046 |
10.0 |
2430 |
1.8552 |
0.7709 |
0.7797 |
💻 使用示例
基礎用法
from transformers import pipeline
ckpt = "Narrativaai/fake-news-detection-spanish"
classifier = pipeline("text-classification", model=ckpt)
headline = "Your headline"
text = "Your article text here..."
classifier(headline + " [SEP] " + text)
🔧 技術細節
框架版本
- Transformers 4.11.3
- Pytorch 1.9.0+cu111
- Datasets 1.14.0
- Tokenizers 0.10.3
模型創建者
由 Narrativa 創建。
關於 Narrativa
自然語言生成(NLG)| Gabriele 是我們基於機器學習的平臺,用於構建和部署自然語言解決方案。#NLG #AI