koelectra-small-v3-nsmc開源情感分析模型 - 免費部署韓語電影評論正負分類

首頁

Koelectra Small V3 Nsmc

由daekeun-ml開發

基於KoELECTRA-Small-v3模型在Naver Sentiment Movie Corpus數據集上微調的情感分析模型，用於韓語電影評論的正負面分類

文本分類

Transformers

韓語開源協議:MIT #韓語情感分析 #電影評論分類 #高精度文本分類

下載量 122

發布時間 : 3/2/2022

模型概述

該模型專門用於分析韓語電影評論的情感傾向，能夠準確判斷評論是正面還是負面。

模型特點

韓語情感分析

專門針對韓語電影評論優化的情感分析能力

高效小型模型

基於ELECTRA-Small架構，在保持較高準確率的同時具有較小的模型體積

SageMaker兼容

提供完整的SageMaker推理工具包接口，便於部署到雲端

模型能力

韓語文本分類

情感傾向分析

電影評論評分預測

使用案例

影視評論分析

電影評論情感分析

自動分析用戶對電影的評價是正面還是負面

準確率較高（具體數值未提供）

影視作品評價監控

即時監控社交媒體上對某部影視作品的評價傾向

可快速處理大量評論數據

🚀 情感二分類（使用KoELECTRA - Small - v3模型和Naver Sentiment Movie Corpus數據集進行微調）

本項目是一個情感二分類模型，利用KoELECTRA - Small - v3模型和Naver Sentiment Movie Corpus數據集進行微調，可對文本的情感傾向進行分類。

🚀 快速開始

本模型使用了SageMaker推理工具包的接口，因此可以輕鬆部署到SageMaker端點。

💻 使用示例

基礎用法

以下是inference_nsmc.py文件的代碼，用於實現推理功能：

import json
import sys
import logging
import torch
from torch import nn
from transformers import ElectraConfig
from transformers import ElectraModel, AutoTokenizer, ElectraTokenizer, ElectraForSequenceClassification

logging.basicConfig(
    level=logging.INFO, 
    format='[{%(filename)s:%(lineno)d} %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler(filename='tmp.log'),
        logging.StreamHandler(sys.stdout)
    ]
)
logger = logging.getLogger(__name__)

max_seq_length = 128
classes = ['Neg', 'Pos']

tokenizer = AutoTokenizer.from_pretrained("daekeun-ml/koelectra-small-v3-nsmc")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


def model_fn(model_path=None):
    ####
    # If you have your own trained model
    # Huggingface pre-trained model: 'monologg/koelectra-small-v3-discriminator'
    ####
    #config = ElectraConfig.from_json_file(f'{model_path}/config.json')
    #model = ElectraForSequenceClassification.from_pretrained(f'{model_path}/model.pth', config=config)
    
    # Download model from the Huggingface hub
    model = ElectraForSequenceClassification.from_pretrained('daekeun-ml/koelectra-small-v3-nsmc')   
    model.to(device)
    return model


def input_fn(input_data, content_type="application/jsonlines"): 
    data_str = input_data.decode("utf-8")
    jsonlines = data_str.split("\n")
    transformed_inputs = []

    for jsonline in jsonlines:
        text = json.loads(jsonline)["text"][0]
        logger.info("input text: {}".format(text))          
        encode_plus_token = tokenizer.encode_plus(
            text,
            max_length=max_seq_length,
            add_special_tokens=True,
            return_token_type_ids=False,
            padding="max_length",
            return_attention_mask=True,
            return_tensors="pt",
            truncation=True,
        )
        transformed_inputs.append(encode_plus_token)
        
    return transformed_inputs


def predict_fn(transformed_inputs, model):
    predicted_classes = []
    
    for data in transformed_inputs:
        data = data.to(device)
        output = model(**data)

        softmax_fn = nn.Softmax(dim=1)
        softmax_output = softmax_fn(output[0])
        _, prediction = torch.max(softmax_output, dim=1)

        predicted_class_idx = prediction.item()
        predicted_class = classes[predicted_class_idx]
        score = softmax_output[0][predicted_class_idx]
        logger.info("predicted_class: {}".format(predicted_class))

        prediction_dict = {}
        prediction_dict["predicted_label"] = predicted_class
        prediction_dict['score'] = score.cpu().detach().numpy().tolist()

        jsonline = json.dumps(prediction_dict)
        logger.info("jsonline: {}".format(jsonline))        
        predicted_classes.append(jsonline)

    predicted_classes_jsonlines = "\n".join(predicted_classes)
    return predicted_classes_jsonlines


def output_fn(outputs, accept="application/jsonlines"):
    return outputs, accept

高級用法

以下是test.py文件的代碼，用於測試推理功能：

>>> from inference_nsmc import model_fn, input_fn, predict_fn, output_fn
>>> with open('samples/nsmc.txt', mode='rb') as file:
>>>     model_input_data = file.read()
>>> model = model_fn()
>>> transformed_inputs = input_fn(model_input_data)
>>> predicted_classes_jsonlines = predict_fn(transformed_inputs, model)
>>> model_outputs = output_fn(predicted_classes_jsonlines)
>>> print(model_outputs[0])    
   
[{inference_nsmc.py:47} INFO - input text: 이 영화는 최고의 영화입니다
[{inference_nsmc.py:47} INFO - input text: 최악이에요. 배우의 연기력도 좋지 않고 내용도 너무 허접합니다
[{inference_nsmc.py:77} INFO - predicted_class: Pos
[{inference_nsmc.py:84} INFO - jsonline: {"predicted_label": "Pos", "score": 0.9619030952453613}
[{inference_nsmc.py:77} INFO - predicted_class: Neg
[{inference_nsmc.py:84} INFO - jsonline: {"predicted_label": "Neg", "score": 0.9994170665740967}
{"predicted_label": "Pos", "score": 0.9619030952453613}
{"predicted_label": "Neg", "score": 0.9994170665740967}

示例數據

以下是示例數據文件samples/nsmc.txt的內容：

{"text": ["이 영화는 최고의 영화입니다"]}
{"text": ["최악이에요. 배우의 연기력도 좋지 않고 내용도 너무 허접합니다"]}

📚 詳細文檔

參考資料

KoELECTRA: https://github.com/monologg/KoELECTRA
Naver Sentiment Movie Corpus Dataset: https://github.com/e9t/nsmc

📄 許可證

本項目採用MIT許可證。

信息表格

屬性	詳情
標籤	分類
許可證	MIT
數據集	Naver Sentiment Movie Corpus (nsmc)
評估指標	準確率、F1值、精確率、召回率

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫