distilbert-base-multilingual-cased-sentiments-student开源！支持12种语言的情感分类模型

首页

Distilbert Base Multilingual Cased Sentiments Student

由 lxyuan 开发

这是一个通过零样本蒸馏技术训练的多语言情感分析模型，支持12种语言的情感分类。

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #多语言情感分析 #零样本蒸馏 #轻量级模型

下载量 498.23k

发布时间 : 5/5/2023

模型简介

该模型是从多语言情感数据集的零样本分类流程蒸馏而来，能够对文本进行积极、中性和消极的情感分类。

模型特点

多语言支持

支持12种不同语言的情感分析

零样本蒸馏

通过零样本分类流程蒸馏技术训练，无需标注数据

轻量级模型

基于DistilBERT架构，比原始BERT模型更轻量高效

模型能力

文本情感分类

多语言文本处理

使用案例

社交媒体分析

多语言评论情感分析

分析不同语言用户评论的情感倾向

准确识别积极、中性和消极评论

市场调研

产品反馈分析

分析多语言市场中的产品反馈情感

帮助了解不同地区用户对产品的满意度

🚀 distilbert-base-multilingual-cased-sentiments-student

该模型是在多语言情感数据集上，使用此脚本从零样本分类管道中蒸馏而来。实际上，多语言情感数据集当然是有标注的，但为了便于示例，我们会假装并忽略这些标注。

教师模型：MoritzLaurer/mDeBERTa-v3-base-mnli-xnli 教师假设模板：“The sentiment of this text is {}.” 学生模型：distilbert-base-multilingual-cased

🚀 快速开始

本模型可用于多语言情感分析任务，通过蒸馏技术从教师模型中学习，能在多种语言上进行情感分类。

✨ 主要特性

多语言支持：支持英语、阿拉伯语、德语、西班牙语、法语、日语、中文、印尼语、印地语、意大利语、马来语、葡萄牙语等多种语言。
零样本蒸馏：基于零样本蒸馏技术，在无标注数据上进行模型训练。

📦 安装指南

本模型基于Hugging Face的transformers库，你可以使用以下命令安装所需依赖：

pip install transformers datasets torch

💻 使用示例

基础用法

from transformers import pipeline

distilled_student_sentiment_classifier = pipeline(
    model="lxyuan/distilbert-base-multilingual-cased-sentiments-student", 
    return_all_scores=True
)

# 英文示例
distilled_student_sentiment_classifier ("I love this movie and i would watch it again and again!")
>> [[{'label': 'positive', 'score': 0.9731044769287109},
  {'label': 'neutral', 'score': 0.016910076141357422},
  {'label': 'negative', 'score': 0.009985478594899178}]]

# 马来语示例
distilled_student_sentiment_classifier("Saya suka filem ini dan saya akan menontonnya lagi dan lagi!")
[[{'label': 'positive', 'score': 0.9760093688964844},
  {'label': 'neutral', 'score': 0.01804516464471817},
  {'label': 'negative', 'score': 0.005945465061813593}]]

# 日语示例
distilled_student_sentiment_classifier("私はこの映画が大好きで、何度も見ます！")
>> [[{'label': 'positive', 'score': 0.9342429041862488},
  {'label': 'neutral', 'score': 0.040193185210227966},
  {'label': 'negative', 'score': 0.025563929229974747}]]

📚 详细文档

训练过程

笔记本链接：点击查看

训练超参数

可以使用以下命令复现训练结果：

python transformers/examples/research_projects/zero-shot-distillation/distill_classifier.py \
--data_file ./multilingual-sentiments/train_unlabeled.txt \
--class_names_file ./multilingual-sentiments/class_names.txt \
--hypothesis_template "The sentiment of this text is {}." \
--teacher_name_or_path MoritzLaurer/mDeBERTa-v3-base-mnli-xnli \
--teacher_batch_size 32 \
--student_name_or_path distilbert-base-multilingual-cased \
--output_dir ./distilbert-base-multilingual-cased-sentiments-student \
--per_device_train_batch_size 16 \
--fp16

如果你在Colab上训练此模型，为避免内存不足错误信息，请进行以下代码修改：

###### 修改第78行以禁用快速分词器 
default=False,

###### 更新第313行的数据集映射部分
dataset = dataset.map(tokenizer, input_columns="text", fn_kwargs={"padding": "max_length", "truncation": True, "max_length": 512})

###### 在第213行添加以下行
del model
print(f"Manually deleted Teacher model, free some memory for student model.")

###### 在第337行添加以下行
trainer.push_to_hub()
tokenizer.push_to_hub("distilbert-base-multilingual-cased-sentiments-student")

训练日志


Training completed. Do not forget to share your model on huggingface.co/models =)

{'train_runtime': 2009.8864, 'train_samples_per_second': 73.0, 'train_steps_per_second': 4.563, 'train_loss': 0.6473459283913797, 'epoch': 1.0}
100%|███████████████████████████████████████| 9171/9171 [33:29<00:00,  4.56it/s]
[INFO|trainer.py:762] 2023-05-06 10:56:18,555 >> The following columns in the evaluation set don't have a corresponding argument in `DistilBertForSequenceClassification.forward` and have been ignored: text. If text are not expected by `DistilBertForSequenceClassification.forward`,  you can safely ignore this message.
[INFO|trainer.py:3129] 2023-05-06 10:56:18,557 >> ***** Running Evaluation *****
[INFO|trainer.py:3131] 2023-05-06 10:56:18,557 >>   Num examples = 146721
[INFO|trainer.py:3134] 2023-05-06 10:56:18,557 >>   Batch size = 128
100%|███████████████████████████████████████| 1147/1147 [08:59<00:00,  2.13it/s]
05/06/2023 11:05:18 - INFO - __main__ - Agreement of student and teacher predictions: 88.29%
[INFO|trainer.py:2868] 2023-05-06 11:05:18,251 >> Saving model checkpoint to ./distilbert-base-multilingual-cased-sentiments-student
[INFO|configuration_utils.py:457] 2023-05-06 11:05:18,251 >> Configuration saved in ./distilbert-base-multilingual-cased-sentiments-student/config.json
[INFO|modeling_utils.py:1847] 2023-05-06 11:05:18,905 >> Model weights saved in ./distilbert-base-multilingual-cased-sentiments-student/pytorch_model.bin
[INFO|tokenization_utils_base.py:2171] 2023-05-06 11:05:18,905 >> tokenizer config file saved in ./distilbert-base-multilingual-cased-sentiments-student/tokenizer_config.json
[INFO|tokenization_utils_base.py:2178] 2023-05-06 11:05:18,905 >> Special tokens file saved in ./distilbert-base-multilingual-cased-sentiments-student/special_tokens_map.json