koelectra-small-v3-nsmc开源情感分析模型 - 免费部署韩语电影评论正负分类

首页

Koelectra Small V3 Nsmc

由 daekeun-ml 开发

基于KoELECTRA-Small-v3模型在Naver Sentiment Movie Corpus数据集上微调的情感分析模型，用于韩语电影评论的正负面分类

文本分类

Transformers

韩语开源协议:MIT #韩语情感分析 #电影评论分类 #高精度文本分类

下载量 122

发布时间 : 3/2/2022

模型简介

该模型专门用于分析韩语电影评论的情感倾向，能够准确判断评论是正面还是负面。

模型特点

韩语情感分析

专门针对韩语电影评论优化的情感分析能力

高效小型模型

基于ELECTRA-Small架构，在保持较高准确率的同时具有较小的模型体积

SageMaker兼容

提供完整的SageMaker推理工具包接口，便于部署到云端

模型能力

韩语文本分类

情感倾向分析

电影评论评分预测

使用案例

影视评论分析

电影评论情感分析

自动分析用户对电影的评价是正面还是负面

准确率较高（具体数值未提供）

影视作品评价监控

实时监控社交媒体上对某部影视作品的评价倾向

可快速处理大量评论数据

🚀 情感二分类（使用KoELECTRA - Small - v3模型和Naver Sentiment Movie Corpus数据集进行微调）

本项目是一个情感二分类模型，利用KoELECTRA - Small - v3模型和Naver Sentiment Movie Corpus数据集进行微调，可对文本的情感倾向进行分类。

🚀 快速开始

本模型使用了SageMaker推理工具包的接口，因此可以轻松部署到SageMaker端点。

💻 使用示例

基础用法

以下是inference_nsmc.py文件的代码，用于实现推理功能：

import json
import sys
import logging
import torch
from torch import nn
from transformers import ElectraConfig
from transformers import ElectraModel, AutoTokenizer, ElectraTokenizer, ElectraForSequenceClassification

logging.basicConfig(
    level=logging.INFO, 
    format='[{%(filename)s:%(lineno)d} %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler(filename='tmp.log'),
        logging.StreamHandler(sys.stdout)
    ]
)
logger = logging.getLogger(__name__)

max_seq_length = 128
classes = ['Neg', 'Pos']

tokenizer = AutoTokenizer.from_pretrained("daekeun-ml/koelectra-small-v3-nsmc")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


def model_fn(model_path=None):
    ####
    # If you have your own trained model
    # Huggingface pre-trained model: 'monologg/koelectra-small-v3-discriminator'
    ####
    #config = ElectraConfig.from_json_file(f'{model_path}/config.json')
    #model = ElectraForSequenceClassification.from_pretrained(f'{model_path}/model.pth', config=config)
    
    # Download model from the Huggingface hub
    model = ElectraForSequenceClassification.from_pretrained('daekeun-ml/koelectra-small-v3-nsmc')   
    model.to(device)
    return model


def input_fn(input_data, content_type="application/jsonlines"): 
    data_str = input_data.decode("utf-8")
    jsonlines = data_str.split("\n")
    transformed_inputs = []

    for jsonline in jsonlines:
        text = json.loads(jsonline)["text"][0]
        logger.info("input text: {}".format(text))          
        encode_plus_token = tokenizer.encode_plus(
            text,
            max_length=max_seq_length,
            add_special_tokens=True,
            return_token_type_ids=False,
            padding="max_length",
            return_attention_mask=True,
            return_tensors="pt",
            truncation=True,
        )
        transformed_inputs.append(encode_plus_token)
        
    return transformed_inputs


def predict_fn(transformed_inputs, model):
    predicted_classes = []
    
    for data in transformed_inputs:
        data = data.to(device)
        output = model(**data)

        softmax_fn = nn.Softmax(dim=1)
        softmax_output = softmax_fn(output[0])
        _, prediction = torch.max(softmax_output, dim=1)

        predicted_class_idx = prediction.item()
        predicted_class = classes[predicted_class_idx]
        score = softmax_output[0][predicted_class_idx]
        logger.info("predicted_class: {}".format(predicted_class))

        prediction_dict = {}
        prediction_dict["predicted_label"] = predicted_class
        prediction_dict['score'] = score.cpu().detach().numpy().tolist()

        jsonline = json.dumps(prediction_dict)
        logger.info("jsonline: {}".format(jsonline))        
        predicted_classes.append(jsonline)

    predicted_classes_jsonlines = "\n".join(predicted_classes)
    return predicted_classes_jsonlines


def output_fn(outputs, accept="application/jsonlines"):
    return outputs, accept

高级用法

以下是test.py文件的代码，用于测试推理功能：

>>> from inference_nsmc import model_fn, input_fn, predict_fn, output_fn
>>> with open('samples/nsmc.txt', mode='rb') as file:
>>>     model_input_data = file.read()
>>> model = model_fn()
>>> transformed_inputs = input_fn(model_input_data)
>>> predicted_classes_jsonlines = predict_fn(transformed_inputs, model)
>>> model_outputs = output_fn(predicted_classes_jsonlines)
>>> print(model_outputs[0])    
   
[{inference_nsmc.py:47} INFO - input text: 이 영화는 최고의 영화입니다
[{inference_nsmc.py:47} INFO - input text: 최악이에요. 배우의 연기력도 좋지 않고 내용도 너무 허접합니다
[{inference_nsmc.py:77} INFO - predicted_class: Pos
[{inference_nsmc.py:84} INFO - jsonline: {"predicted_label": "Pos", "score": 0.9619030952453613}
[{inference_nsmc.py:77} INFO - predicted_class: Neg
[{inference_nsmc.py:84} INFO - jsonline: {"predicted_label": "Neg", "score": 0.9994170665740967}
{"predicted_label": "Pos", "score": 0.9619030952453613}
{"predicted_label": "Neg", "score": 0.9994170665740967}

示例数据

以下是示例数据文件samples/nsmc.txt的内容：

{"text": ["이 영화는 최고의 영화입니다"]}
{"text": ["최악이에요. 배우의 연기력도 좋지 않고 내용도 너무 허접합니다"]}

📚 详细文档

参考资料

KoELECTRA: https://github.com/monologg/KoELECTRA
Naver Sentiment Movie Corpus Dataset: https://github.com/e9t/nsmc

📄 许可证

本项目采用MIT许可证。

信息表格

属性	详情
标签	分类
许可证	MIT
数据集	Naver Sentiment Movie Corpus (nsmc)
评估指标	准确率、F1值、精确率、召回率

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库