distilbert-base-turkish-cased-emotion开源模型 - 精准实现土耳其语情感分析

首页

Distilbert Base Turkish Cased Emotion

由 zafercavdar 开发

基于Distilbert的土耳其语情感分析模型，在翻译为土耳其语的情感数据集上微调

文本分类

Transformers

其他#土耳其语情感分析 #轻量级BERT #多标签分类

下载量 231

发布时间 : 4/19/2022

模型简介

该模型是基于Distilbert架构的土耳其语文本情感分类器，能够识别文本中的六种基本情感（悲伤、喜悦、爱、愤怒、恐惧、惊讶）。

模型特点

高效轻量

基于DistilBERT架构，在保持较高准确率的同时减少计算资源需求

多情感分类

能够识别六种不同的情感类别

土耳其语优化

专门针对土耳其语文本进行训练和优化

模型能力

土耳其语文本分类

情感分析

多标签情感识别

使用案例

社交媒体分析

土耳其语推文情感分析

分析土耳其语社交媒体内容中的用户情感倾向

准确率达83.25%，F1分数83.17

客户反馈分析

产品评论情感分类

自动分类土耳其语产品评论中的用户情感

🚀 土耳其语情感分类预训练模型 DistilBERT

DistilBERT 是一个轻量级的 BERT 模型，本项目基于土耳其语预训练的 DistilBERT 模型，在情感分类数据集上进行微调，用于文本情感分类任务。

🚀 快速开始

安装依赖

确保你已经安装了 transformers 库，可以使用以下命令进行安装：

pip install transformers

模型推理

使用以下代码进行文本情感分类推理：

from transformers import pipeline
classifier = pipeline("text-classification",
                       model='zafercavdar/distilbert-base-turkish-cased-emotion',
                       return_all_scores=True)
prediction = classifier("Bu kütüphaneyi seviyorum, en iyi yanı kolay kullanımı.", )
print(prediction)

"""
Output:
[
  [
    {'label': 'sadness', 'score': 0.0026786490343511105},
    {'label': 'joy', 'score': 0.6600754261016846},
    {'label': 'love', 'score': 0.3203163146972656},
    {'label': 'anger', 'score': 0.004358913749456406},
    {'label': 'fear', 'score': 0.002354539930820465},
    {'label': 'surprise', 'score': 0.010216088965535164}
  ]
]

"""

✨ 主要特性

微调模型：基于 Distilbert-base-turkish-cased 模型在情感数据集上进行微调。
多情感分类：可以识别文本中的多种情感，包括悲伤、喜悦、爱、愤怒、恐惧和惊讶。
高性能：在 Twitter 情感数据集上取得了较高的准确率和 F1 分数。

📦 安装指南

使用 pip 安装所需的库：

pip install transformers

💻 使用示例

基础用法

from transformers import pipeline
classifier = pipeline("text-classification",
                       model='zafercavdar/distilbert-base-turkish-cased-emotion',
                       return_all_scores=True)
prediction = classifier("Bu kütüphaneyi seviyorum, en iyi yanı kolay kullanımı.", )
print(prediction)

📚 详细文档

模型描述

Distilbert-base-turkish-cased 模型在情感数据集（通过 Google Translate API 翻译成土耳其语）上进行了微调，使用了 HuggingFace Trainer 和以下超参数：

 learning rate 2e-5, 
 batch size 64,
 num_train_epochs=8,

模型性能比较

在 Twitter 情感数据集上的模型性能比较：

模型	准确率	F1 分数	每秒测试样本数
Distilbert-base-turkish-cased-emotion	83.25	83.17	232.197

数据集

使用的数据集为 Twitter-Sentiment-Analysis。

评估结果

{
 'eval_accuracy': 0.8325,
 'eval_f1': 0.8317301441160213,
 'eval_loss': 0.5021793842315674,
 'eval_runtime': 8.6167,
 'eval_samples_per_second': 232.108,
 'eval_steps_per_second': 3.714
}

🔧 技术细节

本项目使用了 HuggingFace 的 transformers 库进行模型的微调。具体步骤包括：

加载预训练的 Distilbert-base-turkish-cased 模型。
使用 Google Translate API 将情感数据集翻译成土耳其语。
使用 HuggingFace Trainer 进行模型微调，设置学习率为 2e-5，批量大小为 64，训练轮数为 8。
在测试集上评估模型性能，记录准确率、F1 分数等指标。

📄 许可证

请参考原项目的许可证信息。

属性	详情
模型类型	基于 DistilBERT 的文本分类模型
训练数据	Twitter 情感数据集（翻译成土耳其语）