🚀 气候怀疑论分类器模型卡片
本模型通过利用大语言模型(LLMs)进行数据重平衡,实现了一种对气候变化怀疑论观点进行分类的新颖方法。该模型在处理气候变化怀疑论的 8 种不同类别时,能有效应对数据集中的不平衡问题,展现出卓越的性能。
🚀 快速开始
此模型可用于多类文本分类任务,能将输入文本分类到 8 个预定义的类别之一。由于其采用了加权损失函数,特别适用于存在类别不平衡问题的数据集。
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"Predicted Class: {predicted_class}")
✨ 主要特性
- 类加权:在训练过程中引入类权重,解决了数据集不平衡的问题。
- 自定义损失函数:使用加权交叉熵损失函数,更好地处理了数据集中代表性不足的类别。
- 评估指标:计算了准确率、精确率、召回率和 F1 分数,全面评估了模型的性能。
📦 安装指南
文档未提供相关安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"Predicted Class: {predicted_class}")
📚 详细文档
模型概述
该模型通过利用大语言模型(LLMs)进行数据重平衡,实现了一种对气候变化怀疑论观点进行分类的新颖方法。基础架构采用了经过自定义修改的 BERT 模型,用于处理 8 种不同类别的气候变化怀疑论的不平衡数据集。该模型取得了 99.92% 的准确率,表现卓越。
该模型将文本分为以下怀疑论类型:
- 化石燃料必要性论点
- 无关性主张
- 气候变化否认
- 人为原因否认
- 影响最小化
- 偏见指控
- 科学可靠性质疑
- 解决方案反对
该模型的独特之处在于其使用基于大语言模型的数据重平衡方法,以解决气候变化怀疑论检测中固有的类别不平衡问题,确保在所有论点类别中都能有稳健的表现。
数据集
- 来源:Frugal AI Challenge 文本任务数据集
- 类别:7 个独特的标签,代表不同类别的文本
- 预处理:使用
BertTokenizer
进行分词,并进行填充和截断,最大序列长度为 128。
模型架构
- 基础模型:
huawei-noah/TinyBERT_General_4L_312D
- 分类头:交叉熵损失
- 标签数量:7
训练细节
- 优化器:AdamW
- 学习率:2e - 5
- 批量大小:16(训练和评估均使用)
- 训练轮数:3
- 权重衰减:0.01
- 评估策略:每轮训练结束后进行评估
- 硬件:在 GPU 上进行训练,以提高计算效率
性能指标(验证集)
以下指标是在验证集(而非测试集,测试集在竞赛中保持私密)上计算得出的:
类别 |
精确率 |
召回率 |
F1 分数 |
样本数 |
not_relevant |
0.88 |
0.82 |
0.85 |
130.0 |
not_happening |
0.82 |
0.93 |
0.87 |
59.0 |
not_human |
0.80 |
0.86 |
0.83 |
56.0 |
not_bad |
0.87 |
0.84 |
0.85 |
31.0 |
fossil_fuels_needed |
0.87 |
0.84 |
0.85 |
62.0 |
science_unreliable |
0.78 |
0.77 |
0.77 |
64.0 |
proponents_biased |
0.73 |
0.75 |
0.74 |
63.0 |
- 总体准确率:0.83
- 宏平均:精确率:0.82,召回率:0.83,F1 分数:0.83
- 加权平均:精确率:0.83,召回率:0.83,F1 分数:0.83
训练过程
训练和验证损失
以下是训练和验证损失随训练轮数的变化情况:

验证准确率
以下是验证准确率随训练轮数的变化情况:

混淆矩阵
以下混淆矩阵展示了模型在验证集上的表现,突出了模型的优势和可能出现错误分类的区域:

类别映射
模型输出索引与类别名称的映射关系如下:
0: not_relevant, 1: not_happening, 2: not_human, 3: not_bad, 4: fossil_fuels_needed, 5: science_unreliable, 6: proponents_biased
局限性
- 在极度不平衡的数据集上,性能可能会有所不同
- 训练需要大量的计算资源
- 模型性能依赖于大语言模型生成的平衡数据的质量
- 在处理非常长的文本序列(>128 个标记)时,可能无法达到最佳性能
- 对于新颖或不断演变的气候变化怀疑论观点,可能表现不佳
- 可能对论点表述的细微变化较为敏感
- 可能需要定期更新以捕捉新出现的怀疑论模式
引用
如果您使用此模型,请引用:
@article{your_name2024climateskepticism,
title={LLM-Rebalanced Transformer for Climate Change Skepticism Classification},
author={Your Name},
year={2024},
journal={Preprint}
}
致谢
特别感谢 Frugal AI Challenge 组织者提供数据集,并推动人工智能研究的创新。
🔧 技术细节
文档未提供相关技术细节,故跳过该章节。
📄 许可证
本项目采用 apache - 2.0
许可证。