🚀 土耳其语情感分类预训练模型 DistilBERT
DistilBERT 是一个轻量级的 BERT 模型,本项目基于土耳其语预训练的 DistilBERT 模型,在情感分类数据集上进行微调,用于文本情感分类任务。
🚀 快速开始
安装依赖
确保你已经安装了 transformers
库,可以使用以下命令进行安装:
pip install transformers
模型推理
使用以下代码进行文本情感分类推理:
from transformers import pipeline
classifier = pipeline("text-classification",
model='zafercavdar/distilbert-base-turkish-cased-emotion',
return_all_scores=True)
prediction = classifier("Bu kütüphaneyi seviyorum, en iyi yanı kolay kullanımı.", )
print(prediction)
"""
Output:
[
[
{'label': 'sadness', 'score': 0.0026786490343511105},
{'label': 'joy', 'score': 0.6600754261016846},
{'label': 'love', 'score': 0.3203163146972656},
{'label': 'anger', 'score': 0.004358913749456406},
{'label': 'fear', 'score': 0.002354539930820465},
{'label': 'surprise', 'score': 0.010216088965535164}
]
]
"""
✨ 主要特性
📦 安装指南
使用 pip
安装所需的库:
pip install transformers
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline("text-classification",
model='zafercavdar/distilbert-base-turkish-cased-emotion',
return_all_scores=True)
prediction = classifier("Bu kütüphaneyi seviyorum, en iyi yanı kolay kullanımı.", )
print(prediction)
📚 详细文档
模型描述
Distilbert-base-turkish-cased 模型在情感数据集(通过 Google Translate API 翻译成土耳其语)上进行了微调,使用了 HuggingFace Trainer 和以下超参数:
learning rate 2e-5,
batch size 64,
num_train_epochs=8,
模型性能比较
在 Twitter 情感数据集上的模型性能比较:
数据集
使用的数据集为 Twitter-Sentiment-Analysis。
评估结果
{
'eval_accuracy': 0.8325,
'eval_f1': 0.8317301441160213,
'eval_loss': 0.5021793842315674,
'eval_runtime': 8.6167,
'eval_samples_per_second': 232.108,
'eval_steps_per_second': 3.714
}
🔧 技术细节
本项目使用了 HuggingFace 的 transformers
库进行模型的微调。具体步骤包括:
- 加载预训练的 Distilbert-base-turkish-cased 模型。
- 使用 Google Translate API 将情感数据集翻译成土耳其语。
- 使用 HuggingFace Trainer 进行模型微调,设置学习率为 2e-5,批量大小为 64,训练轮数为 8。
- 在测试集上评估模型性能,记录准确率、F1 分数等指标。
📄 许可证
请参考原项目的许可证信息。
相关信息
属性 |
详情 |
模型类型 |
基于 DistilBERT 的文本分类模型 |
训练数据 |
Twitter 情感数据集(翻译成土耳其语) |