TinyBert开源文本分类模型 - 免费部署，精准识别气候怀疑论观点

首页

Tinybert Frugal Ai Text Classification

由 ParisNeo 开发

基于TinyBERT的文本分类模型，专门用于识别和分类气候怀疑论观点，通过LLM数据平衡技术解决类别不平衡问题。

文本分类

Transformers

英语开源协议:Apache-2.0 #LLM数据平衡 #气候论点分类 #高精度文本分析

下载量 31

发布时间 : 1/17/2025

模型简介

该模型采用BERT架构，针对8种气候怀疑论类别进行文本分类，特别设计了加权损失函数处理数据不平衡问题，适用于气候相关文本分析。

模型特点

LLM数据平衡技术

使用大型语言模型生成平衡数据，有效解决气候怀疑论检测中的类别不平衡问题

加权损失函数

采用加权交叉熵损失，提高对代表性不足类别的识别能力

多维度评估

提供精确率、召回率、F1分数等多维度评估指标，全面反映模型性能

高效架构

基于TinyBERT的轻量级架构，在保持高性能的同时降低计算资源需求

模型能力

气候怀疑论文本分类

不平衡数据处理

多类别文本分析

使用案例

气候研究

社交媒体气候观点分析

识别社交媒体中不同气候怀疑论观点类型

准确分类8种气候怀疑论类型

气候政策支持研究

分析公众对气候政策的反对意见类型

识别主要反对论点类别

内容审核

气候虚假信息检测

自动检测和分类气候相关的虚假信息

高准确率识别科学不可靠内容

🚀 气候怀疑论分类器模型卡片

本模型通过利用大语言模型（LLMs）进行数据重平衡，实现了一种对气候变化怀疑论观点进行分类的新颖方法。该模型在处理气候变化怀疑论的 8 种不同类别时，能有效应对数据集中的不平衡问题，展现出卓越的性能。

🚀 快速开始

此模型可用于多类文本分类任务，能将输入文本分类到 8 个预定义的类别之一。由于其采用了加权损失函数，特别适用于存在类别不平衡问题的数据集。

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载微调后的模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")

# 对输入文本进行分词
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)

# 进行推理
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()

print(f"Predicted Class: {predicted_class}")

✨ 主要特性

类加权：在训练过程中引入类权重，解决了数据集不平衡的问题。
自定义损失函数：使用加权交叉熵损失函数，更好地处理了数据集中代表性不足的类别。
评估指标：计算了准确率、精确率、召回率和 F1 分数，全面评估了模型的性能。

📦 安装指南

文档未提供相关安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载微调后的模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("climate-skepticism-classifier")
tokenizer = AutoTokenizer.from_pretrained("climate-skepticism-classifier")

# 对输入文本进行分词
text = "Your input text here"
inputs = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=128)

# 进行推理
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()

print(f"Predicted Class: {predicted_class}")

📚 详细文档

模型概述

该模型通过利用大语言模型（LLMs）进行数据重平衡，实现了一种对气候变化怀疑论观点进行分类的新颖方法。基础架构采用了经过自定义修改的 BERT 模型，用于处理 8 种不同类别的气候变化怀疑论的不平衡数据集。该模型取得了 99.92% 的准确率，表现卓越。

该模型将文本分为以下怀疑论类型：

化石燃料必要性论点
无关性主张
气候变化否认
人为原因否认
影响最小化
偏见指控
科学可靠性质疑
解决方案反对

该模型的独特之处在于其使用基于大语言模型的数据重平衡方法，以解决气候变化怀疑论检测中固有的类别不平衡问题，确保在所有论点类别中都能有稳健的表现。

数据集

来源：Frugal AI Challenge 文本任务数据集
类别：7 个独特的标签，代表不同类别的文本
预处理：使用 BertTokenizer 进行分词，并进行填充和截断，最大序列长度为 128。

模型架构

基础模型：huawei-noah/TinyBERT_General_4L_312D
分类头：交叉熵损失
标签数量：7

训练细节

优化器：AdamW
学习率：2e - 5
批量大小：16（训练和评估均使用）
训练轮数：3
权重衰减：0.01
评估策略：每轮训练结束后进行评估
硬件：在 GPU 上进行训练，以提高计算效率

性能指标（验证集）

以下指标是在验证集（而非测试集，测试集在竞赛中保持私密）上计算得出的：

类别	精确率	召回率	F1 分数	样本数
not_relevant	0.88	0.82	0.85	130.0
not_happening	0.82	0.93	0.87	59.0
not_human	0.80	0.86	0.83	56.0
not_bad	0.87	0.84	0.85	31.0
fossil_fuels_needed	0.87	0.84	0.85	62.0
science_unreliable	0.78	0.77	0.77	64.0
proponents_biased	0.73	0.75	0.74	63.0

总体准确率：0.83
宏平均：精确率：0.82，召回率：0.83，F1 分数：0.83
加权平均：精确率：0.83，召回率：0.83，F1 分数：0.83

训练过程

训练和验证损失

以下是训练和验证损失随训练轮数的变化情况：

训练损失

验证准确率

以下是验证准确率随训练轮数的变化情况：

验证准确率

混淆矩阵

以下混淆矩阵展示了模型在验证集上的表现，突出了模型的优势和可能出现错误分类的区域：

混淆矩阵

类别映射

模型输出索引与类别名称的映射关系如下： 0: not_relevant, 1: not_happening, 2: not_human, 3: not_bad, 4: fossil_fuels_needed, 5: science_unreliable, 6: proponents_biased

局限性

在极度不平衡的数据集上，性能可能会有所不同
训练需要大量的计算资源
模型性能依赖于大语言模型生成的平衡数据的质量
在处理非常长的文本序列（>128 个标记）时，可能无法达到最佳性能
对于新颖或不断演变的气候变化怀疑论观点，可能表现不佳
可能对论点表述的细微变化较为敏感
可能需要定期更新以捕捉新出现的怀疑论模式

引用

如果您使用此模型，请引用：

@article{your_name2024climateskepticism,
    title={LLM-Rebalanced Transformer for Climate Change Skepticism Classification},
    author={Your Name},
    year={2024},
    journal={Preprint}
}