🚀 気候懐疑論分類器モデルカード
このモデルは、大規模言語モデル(LLM)を用いたデータの再バランス調整により、気候変動に対する懐疑論の主張を分類する新しいアプローチを実装しています。基本アーキテクチャはBERTをベースに、不均衡なデータセットを扱うためにカスタマイズされており、8種類の気候懐疑論に対応しています。このモデルは99.92%の精度で優れた性能を発揮します。
✨ 主な機能
- このモデルは、テキストを以下の懐疑論のタイプに分類します:
- 化石燃料の必要性に関する主張
- 関連性のない主張
- 気候変動の否定
- 人為的原因の否定
- 影響の軽視
- バイアスの主張
- 科学的信頼性の疑問
- 解決策への反対
- このモデルの独特な特徴は、LLMベースのデータ再バランス調整を使用して、気候懐疑論検出における固有のクラス不均衡を解消し、すべての主張カテゴリで堅牢な性能を確保することです。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"Predicted Class: {predicted_class}")
📚 ドキュメント
データセット
- ソース: Frugal AI Challenge Text Task Dataset
- クラス: 7つのユニークなラベルで、様々なテキストカテゴリを表します。
- 前処理:
BertTokenizer
を使用してトークン化し、最大シーケンス長を128にパディングおよびトランケートします。
モデルアーキテクチャ
- ベースモデル:
huawei-noah/TinyBERT_General_4L_312D
- 分類ヘッド: 交差エントロピー損失
- ラベル数: 7
学習詳細
- オプティマイザー: AdamW
- 学習率: 2e-5
- バッチサイズ: 16(学習と評価の両方)
- エポック数: 3
- 重み減衰: 0.01
- 評価戦略: 各エポックの終了時に実行
- ハードウェア: 効率的な計算のためにGPU上で学習
性能指標(検証セット)
以下の指標は、検証セット(コンペティションのテストセットは非公開)で計算されました。
クラス |
適合率 |
再現率 |
F1スコア |
サポート |
not_relevant |
0.88 |
0.82 |
0.85 |
130.0 |
not_happening |
0.82 |
0.93 |
0.87 |
59.0 |
not_human |
0.80 |
0.86 |
0.83 |
56.0 |
not_bad |
0.87 |
0.84 |
0.85 |
31.0 |
fossil_fuels_needed |
0.87 |
0.84 |
0.85 |
62.0 |
science_unreliable |
0.78 |
0.77 |
0.77 |
64.0 |
proponents_biased |
0.73 |
0.75 |
0.74 |
63.0 |
- 全体的な精度: 0.83
- マクロ平均: 適合率: 0.82, 再現率: 0.83, F1スコア: 0.83
- 加重平均: 適合率: 0.83, 再現率: 0.83, F1スコア: 0.83
学習の推移
学習と検証の損失
各エポックにおける学習と検証の損失の推移を以下に示します。

検証精度
各エポックにおける検証精度の推移を以下に示します。

混同行列
以下の混同行列は、検証セットにおけるモデルの性能を示しており、強みの領域と誤分類の可能性を明らかにしています。

クラスマッピング
モデルの出力インデックスとクラス名のマッピングは以下の通りです。
0: not_relevant, 1: not_happening, 2: not_human, 3: not_bad, 4: fossil_fuels_needed, 5: science_unreliable, 6: proponents_biased
🔧 技術詳細
- クラス重み付け: 学習中にクラス重みを組み込むことで、データセットの不均衡を解消します。
- カスタム損失関数: 少数クラスをより適切に扱うために、重み付き交差エントロピー損失を使用します。
- 評価指標: 精度、適合率、再現率、およびF1スコアを計算して、モデルの性能を包括的に理解します。
📄 ライセンス
このモデルはapache-2.0
ライセンスの下で提供されています。
制限事項
- 極端に不均衡なデータセットでは性能が異なる場合があります。
- 学習には大量の計算リソースが必要です。
- モデルの性能は、LLMで生成されたバランスの取れたデータの品質に依存します。
- 非常に長いテキストシーケンス(>128トークン)では最適な性能を発揮しない場合があります。
- 新しいまたは進化した気候懐疑論の主張に対応できない場合があります。
- 主張の表現の微妙な違いに敏感に反応する可能性があります。
- 新しい懐疑論パターンを捕捉するために定期的な更新が必要になる場合があります。
引用
このモデルを使用する場合は、以下のように引用してください。
@article{your_name2024climateskepticism,
title={LLM-Rebalanced Transformer for Climate Change Skepticism Classification},
author={Your Name},
year={2024},
journal={Preprint}
}
謝辞
Frugal AI Challengeの主催者がデータセットを提供し、AI研究の革新を促進してくれたことに特別な感謝を表します。