🚀 RoBERTa-large-fake-news-detection-spanish
このモデルは、PlanTL-GOB-ES/roberta-large-bne を Spanish Fake News Dataset でファインチューニングしたバージョンです。
評価セットでは以下の結果を達成しています。
- 損失: 1.7474
- F1: 0.7717
- 正解率: 0.7797
したがって、リーダーボードに基づくと、当モデルは最良のモデル(F1 = 0.7666)を上回っています。
✨ 主な機能
このモデルは、スペイン語のニュースが偽物か本物かを判定するために使用できます。RoBERTa-large-bne モデルをベースに、スペイン語の偽ニュースデータセットでファインチューニングされています。
📦 インストール
このセクションではインストール手順に関する具体的な内容がありません。
💻 使用例
基本的な使用法
from transformers import pipeline
ckpt = "Narrativaai/fake-news-detection-spanish"
classifier = pipeline("text-classification", model=ckpt)
headline = "Your headline"
text = "Your article text here..."
classifier(headline + " [SEP] " + text)
📚 ドキュメント
モデルの説明
RoBERTa-large-bne は、スペイン語用のトランスフォーマーベースのマスク言語モデルです。RoBERTa large モデルをベースに、これまでに知られている最大のスペイン語コーパスを使用して事前学習されています。このコーパスは、2009年から2019年にかけてスペイン国立図書館(Biblioteca Nacional de España)によって収集されたウェブクローリングデータから作成され、合計570GBのクリーンで重複のないテキストが含まれています。
想定される用途と制限
このタスクの目的は、ニュースのテキスト表現を分析することで、そのニュースが偽物か本物かを判断することです。
学習と評価データ
FakeDeS: Fake News Detection in Spanish Shared Task
偽ニュースは、テロ、政治選挙、広告、風刺など、さまざまな目的で人々を操作することを目的とした情報を提供します。ソーシャルネットワークでは、誤情報が数千人の人々の間で瞬時に拡散するため、ウェブ上の誤情報の量を管理するのに役立つツールを開発する必要があります。同様のタスクには、ソーシャルネットワークでの人気度の検出や、このメディアでのメッセージの主観性の検出があります。偽ニュース検出システムは、ユーザーが潜在的に欺瞞的なニュースを検出してフィルタリングするのに役立つことを目的としています。意図的に誤解を招くニュースの予測は、過去にレビューされた真実のニュースと不正なニュース、つまり注釈付きコーパスの分析に基づいています。
スペイン語の偽ニュースコーパスは、いくつかのウェブソースから収集されたニュースのコレクションです。これには、定評のある新聞のウェブサイト、メディア会社のウェブサイト、偽ニュースを検証するための特別なウェブサイト、さまざまなジャーナリストによって定期的に偽ニュースを掲載するサイトとして指定されたウェブサイトが含まれます。ニュースは2018年1月から7月に収集され、すべてメキシコスペイン語で書かれています。
このコーパスには、2018年1月から7月にかけてさまざまなソースから収集された971件のニュースが含まれています。
- 定評のある新聞のウェブサイト
- メディア会社のウェブサイト
- 偽ニュースを検証するための特別なウェブサイト
- さまざまなジャーナリストによって定期的に偽ニュースを掲載するサイトとして指定されたウェブサイト
このコーパスは、手動でラベリングされたプロセスに従って、2つのクラス(真または偽)のみを考慮してタグ付けされています。
- ニュースが信頼できるサイトに掲載されていることが証拠としてある場合、そのニュースは真です。
- 信頼できるサイトや欺瞞的なコンテンツの検出に特化したウェブサイトからのニュースがそれに反している場合、またはソース以外にそのニュースに関する他の証拠が見つからない場合、そのニュースは偽です。
- イベントの真偽のニュースのペアを収集したため、コーパス内のニュースには相関関係があります。
トピックの偏りを避けるために、このコーパスは9つの異なるトピックのニュースをカバーしています。科学、スポーツ、経済、教育、エンターテイメント、政治、健康、安全、社会です。下の表に示すように、偽ニュースと真ニュースの数はかなりバランスが取れています。約70%(676件のニュース)が学習コーパスとして使用され、30%(295件のニュース)がテストコーパスとして使用されます。
学習コーパスには以下の情報が含まれています。
- カテゴリ: 偽/ 真
- トピック: 科学/ スポーツ/ 経済/ 教育/ エンターテイメント/ 政治/ 健康/ 安全/ 社会
- 見出し: ニュースのタイトル
- テキスト: ニュースの完全なテキスト
- リンク: ニュースが掲載されたURL
学習手順
学習手順に関する詳細は未提供です。
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率: 2e-05
- 学習バッチサイズ: 4
- 評価バッチサイズ: 4
- シード: 42
- オプティマイザ: Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラの種類: 線形
- エポック数: 10
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
F1 |
正解率 |
ログなし |
1.0 |
243 |
0.6282 |
0.7513 |
0.75 |
ログなし |
2.0 |
486 |
0.9600 |
0.7346 |
0.7587 |
0.5099 |
3.0 |
729 |
1.2128 |
0.7656 |
0.7570 |
0.5099 |
4.0 |
972 |
1.4001 |
0.7606 |
0.7622 |
0.1949 |
5.0 |
1215 |
1.9748 |
0.6475 |
0.7220 |
0.1949 |
6.0 |
1458 |
1.7386 |
0.7706 |
0.7710 |
0.0263 |
7.0 |
1701 |
1.7474 |
0.7717 |
0.7797 |
0.0263 |
8.0 |
1944 |
1.8114 |
0.7695 |
0.7780 |
0.0046 |
9.0 |
2187 |
1.8444 |
0.7709 |
0.7797 |
0.0046 |
10.0 |
2430 |
1.8552 |
0.7709 |
0.7797 |
フレームワークのバージョン
- Transformers 4.11.3
- Pytorch 1.9.0+cu111
- Datasets 1.14.0
- Tokenizers 0.10.3
作成者: Narrativa
Narrativaについて: 自然言語生成(NLG) | 当社の機械学習ベースのプラットフォームであるGabrieleは、自然言語ソリューションを構築および展開します。 #NLG #AI