🚀 氣候懷疑論分類器模型卡片
本模型通過利用大語言模型(LLMs)進行數據重平衡,實現了一種對氣候變化懷疑論觀點進行分類的新穎方法。該模型在處理氣候變化懷疑論的 8 種不同類別時,能有效應對數據集中的不平衡問題,展現出卓越的性能。
🚀 快速開始
此模型可用於多類文本分類任務,能將輸入文本分類到 8 個預定義的類別之一。由於其採用了加權損失函數,特別適用於存在類別不平衡問題的數據集。
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"Predicted Class: {predicted_class}")
✨ 主要特性
- 類加權:在訓練過程中引入類權重,解決了數據集不平衡的問題。
- 自定義損失函數:使用加權交叉熵損失函數,更好地處理了數據集中代表性不足的類別。
- 評估指標:計算了準確率、精確率、召回率和 F1 分數,全面評估了模型的性能。
📦 安裝指南
文檔未提供相關安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"Predicted Class: {predicted_class}")
📚 詳細文檔
模型概述
該模型通過利用大語言模型(LLMs)進行數據重平衡,實現了一種對氣候變化懷疑論觀點進行分類的新穎方法。基礎架構採用了經過自定義修改的 BERT 模型,用於處理 8 種不同類別的氣候變化懷疑論的不平衡數據集。該模型取得了 99.92% 的準確率,表現卓越。
該模型將文本分為以下懷疑論類型:
- 化石燃料必要性論點
- 無關性主張
- 氣候變化否認
- 人為原因否認
- 影響最小化
- 偏見指控
- 科學可靠性質疑
- 解決方案反對
該模型的獨特之處在於其使用基於大語言模型的數據重平衡方法,以解決氣候變化懷疑論檢測中固有的類別不平衡問題,確保在所有論點類別中都能有穩健的表現。
數據集
- 來源:Frugal AI Challenge 文本任務數據集
- 類別:7 個獨特的標籤,代表不同類別的文本
- 預處理:使用
BertTokenizer
進行分詞,並進行填充和截斷,最大序列長度為 128。
模型架構
- 基礎模型:
huawei-noah/TinyBERT_General_4L_312D
- 分類頭:交叉熵損失
- 標籤數量:7
訓練細節
- 優化器:AdamW
- 學習率:2e - 5
- 批量大小:16(訓練和評估均使用)
- 訓練輪數:3
- 權重衰減:0.01
- 評估策略:每輪訓練結束後進行評估
- 硬件:在 GPU 上進行訓練,以提高計算效率
性能指標(驗證集)
以下指標是在驗證集(而非測試集,測試集在競賽中保持私密)上計算得出的:
類別 |
精確率 |
召回率 |
F1 分數 |
樣本數 |
not_relevant |
0.88 |
0.82 |
0.85 |
130.0 |
not_happening |
0.82 |
0.93 |
0.87 |
59.0 |
not_human |
0.80 |
0.86 |
0.83 |
56.0 |
not_bad |
0.87 |
0.84 |
0.85 |
31.0 |
fossil_fuels_needed |
0.87 |
0.84 |
0.85 |
62.0 |
science_unreliable |
0.78 |
0.77 |
0.77 |
64.0 |
proponents_biased |
0.73 |
0.75 |
0.74 |
63.0 |
- 總體準確率:0.83
- 宏平均:精確率:0.82,召回率:0.83,F1 分數:0.83
- 加權平均:精確率:0.83,召回率:0.83,F1 分數:0.83
訓練過程
訓練和驗證損失
以下是訓練和驗證損失隨訓練輪數的變化情況:

驗證準確率
以下是驗證準確率隨訓練輪數的變化情況:

混淆矩陣
以下混淆矩陣展示了模型在驗證集上的表現,突出了模型的優勢和可能出現錯誤分類的區域:

類別映射
模型輸出索引與類別名稱的映射關係如下:
0: not_relevant, 1: not_happening, 2: not_human, 3: not_bad, 4: fossil_fuels_needed, 5: science_unreliable, 6: proponents_biased
侷限性
- 在極度不平衡的數據集上,性能可能會有所不同
- 訓練需要大量的計算資源
- 模型性能依賴於大語言模型生成的平衡數據的質量
- 在處理非常長的文本序列(>128 個標記)時,可能無法達到最佳性能
- 對於新穎或不斷演變的氣候變化懷疑論觀點,可能表現不佳
- 可能對論點表述的細微變化較為敏感
- 可能需要定期更新以捕捉新出現的懷疑論模式
引用
如果您使用此模型,請引用:
@article{your_name2024climateskepticism,
title={LLM-Rebalanced Transformer for Climate Change Skepticism Classification},
author={Your Name},
year={2024},
journal={Preprint}
}
致謝
特別感謝 Frugal AI Challenge 組織者提供數據集,並推動人工智能研究的創新。
🔧 技術細節
文檔未提供相關技術細節,故跳過該章節。
📄 許可證
本項目採用 apache - 2.0
許可證。