indonesian-sentiment开源模型 - 免费部署实现印尼语评论情感分析分类

首页

Indonesian Sentiment

由 taufiqdp 开发

基于预训练的印尼语BERT模型微调而来，用于对印尼语评论和评价进行情感分析，能将文本分为消极、中性和积极三类。

文本分类

Transformers

开源协议:MIT #印尼语情感分析 #BERT微调 #评论分类

下载量 1,830

发布时间 : 10/25/2023

模型简介

该模型是IndoBERT Base Uncased的微调版本，专门用于印尼语文本的情感分析任务。

模型特点

印尼语专用

基于印尼语预训练的BERT模型，专门针对印尼语文本优化

三分类情感分析

能够将印尼语评论文本准确分类为消极、中性或积极三类

高性能

在评估数据集上达到95.69%的准确率

模型能力

印尼语文本分类

情感分析

评论评价分析

使用案例

客户反馈分析

产品评论分析

分析电商平台上的印尼语产品评论情感倾向

准确识别用户对产品的满意度

服务评价监控

监控酒店或餐厅服务评价的情感倾向

及时发现服务问题并改进

社交媒体监测

品牌声誉监测

分析社交媒体上关于品牌的印尼语讨论情感倾向

了解公众对品牌的整体态度

🚀 印尼语情感分析模型

本模型用于对印尼语评论和评价进行情感分析，基于预训练的印尼语BERT模型微调而来，能将文本分为消极、中性和积极三类。

🚀 快速开始

你可以按照以下方式加载模型并进行推理：

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("taufiqdp/indonesian-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("taufiqdp/indonesian-sentiment")

class_names = ['negatif', 'netral', 'positif']

text = "Pelayanan lama dan tidak ramah"
tokenized_text = tokenizer(text, return_tensors='pt')

with torch.inference_mode():
    logits = model(**tokenized_text)['logits']

result = class_names[logits.argmax(dim=1)]
print(result)

✨ 主要特性

基于预训练的 IndoBERT Base Uncased 模型进行微调，该模型在印尼语文本数据上进行了预训练。
能够对印尼语评论和评价进行情感分析，将文本分为消极、中性和积极三类。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("taufiqdp/indonesian-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("taufiqdp/indonesian-sentiment")

class_names = ['negatif', 'netral', 'positif']

text = "Pelayanan lama dan tidak ramah"
tokenized_text = tokenizer(text, return_tensors='pt')

with torch.inference_mode():
    logits = model(**tokenized_text)['logits']

result = class_names[logits.argmax(dim=1)]
print(result)

📚 详细文档

模型详情

本模型是 IndoBERT Base Uncased 的微调版本，这是一个在印尼语文本数据上预训练的BERT模型。它经过微调，用于对印尼语评论和评价进行情感分析。

该模型在 indonlu (SmSA) 和 indonesian_sentiment 数据集上进行训练。

模型将给定的印尼语评论文本分为以下三类之一：

消极
中性
积极

训练超参数

训练批次大小（train_batch_size）：32
评估批次大小（eval_batch_size）：32
学习率（learning_rate）：1e-4
优化器（optimizer）：AdamW，其中 betas=(0.9, 0.999)，eps=1e-8，权重衰减（weight_decay）=0.01
训练轮数（epochs）：3
学习率调度器（learning_rate_scheduler）：StepLR，步长（step_size）=592，衰减率（gamma）=0.1

训练结果

以下表格展示了模型的训练结果：

轮数	损失	准确率
1	0.2936	0.9310
2	0.1212	0.9526
3	0.0795	0.9569

🔧 技术细节

文档中关于技术细节的描述已在“详细文档”部分体现，故不再单独列出此章节。

📄 许可证

本模型使用 MIT 许可证。

📖 引用

@misc{koto2020indolem,
      title={IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP}, 
      author={Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin},
      year={2020},
      eprint={2011.00677},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{purwarianti2019improving,
  title={Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector},
  author={Ayu Purwarianti and Ida Ayu Putu Ari Crisdayanti},
  booktitle={Proceedings of the 2019 International Conference of Advanced Informatics: Concepts, Theory and Applications (ICAICTA)},
  pages={1--5},
  year={2019},
  organization={IEEE}
}