🚀 客户评价分类模型
本项目基于DistilBERT微调得到的模型,可将客户反馈精准分类为六个预定义类别,为客户评价分析提供高效解决方案。
🚀 快速开始
以下是使用该模型进行推理的示例:
from transformers import pipeline
classifier = pipeline("text-classification", model="dnzblgn/Customer-Reviews-Classification")
result = classifier("The product arrived on time and was exactly as described.")
print(result)
✨ 主要特性
- 高效分类:基于DistilBERT的Transformer架构,能有效处理文本的句法模式,根据内容、风格和结构进行准确的文档分类。
- 多类别覆盖:可将客户反馈分为六个预定义类别,包括运输与交付、客户服务、价格与价值、质量与性能、使用与设计以及其他。
📦 安装指南
文档未提及具体安装步骤,可参考transformers
库的官方安装指南进行安装。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline("text-classification", model="dnzblgn/Customer-Reviews-Classification")
result = classifier("The product arrived on time and was exactly as described.")
print(result)
📚 详细文档
类别映射
label_mapping = {
"shipping_and_delivery": 0,
"customer_service": 1,
"price_and_value": 2,
"quality_and_performance": 3,
"use_and_design": 4,
"other": 5
}
模型描述
这个经过微调的DistilBERT模型专为文档分类而设计。它将客户反馈分为六个预定义类别:运输与交付、客户服务、价格与价值、质量与性能、使用与设计以及其他。通过利用DistilBERT基于Transformer的架构,该模型能有效处理文本的句法模式,根据内容、风格和结构提供准确的文档分类。
属性 |
详情 |
模型类型 |
DistilBERT(针对文本分类进行微调) |
语言 |
英语 |
许可证 |
Apache 2.0 |
微调基础模型 |
distilbert/distilbert-base-uncased |
偏差、风险和局限性
虽然该模型在六个类别上实现了较高的准确率,但在处理重叠类别或单个文档中的多个标签时存在局限性。该模型设计用于单标签分类,即每个文档只能检测一个标签。如果一个文档包含多个类别的特征(例如,同时包含“质量与性能”和“价格与价值”),模型可能难以正确识别两者,只会预测一个类别,可能导致错误分类。
建议
用户(直接用户和下游用户)应了解该模型的单标签预测限制。在文档包含多个类别特征的情况下,应考虑使用其他模型或多标签分类技术。
训练数据
为该任务创建了一个自定义合成数据集,重点关注文本的结构特征。该数据集提供了六个类别的示例,帮助模型从文本的句法组织和含义中学习。
训练超参数
- 模型:distilbert/distilbert-base-uncased
- 学习率:3e-5
- 训练轮数:7
- 训练批次大小:16
- 梯度累积步数:2
- 权重衰减:0.015
- 预热比例:0.1
评估
使用代表相同六个文档类别的自定义数据集对模型进行评估。根据准确率、精确率、召回率和F1分数衡量模型在各个类别上的性能。
指标
- 准确率:0.947
- 精确率:0.948
- 召回率:0.948
- F1分数:0.948
如需访问使用的合成数据集,请联系:[deniz.bilgin@uni-konstanz.de]。
🔧 技术细节
本模型基于DistilBERT进行微调,通过自定义合成数据集进行训练,学习文本的句法组织和含义。在训练过程中,使用了特定的超参数,如学习率、训练轮数等,以优化模型性能。评估时,使用自定义数据集和多种指标来衡量模型的准确性和有效性。
📄 许可证
本模型使用Apache 2.0许可证。