roberta-base-japanese-jsnli開源文本分類模型 - 免費部署助力日語自然語言推理

首頁

Roberta Base Japanese Jsnli

由Formzu開發

基於日語RoBERTa模型在JSNLI數據集上微調的文本分類模型，擅長自然語言推理任務

文本分類

Transformers

支持多種語言#日語零樣本分類 #高準確率NLI #Juman++分詞適配

下載量 31

發布時間 : 10/14/2022

模型概述

該模型是基於nlp-waseda/roberta-base-japanese在JSNLI數據集上微調的版本，主要用於日語文本分類和自然語言推理任務。

模型特點

日語專用

專門針對日語文本處理優化，需要配合Juman++分詞器使用

高準確率

在JSNLI開發集上達到93.28%的準確率

零樣本分類能力

支持零樣本分類任務，無需額外訓練即可應用於新類別

模型能力

日語文本分類

自然語言推理

零樣本分類

使用案例

文本分析

情感分析

分析日語文本的情感傾向

主題分類

對日語文本進行主題分類

智能對話

意圖識別

識別用戶輸入的對話意圖

🚀 roberta-base-japanese-jsnli

該模型是 nlp-waseda/roberta-base-japanese 在 JSNLI 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.2039
準確率：0.9328

🚀 快速開始

本模型可用於文本分類任務，在自然語言推理任務上表現良好。使用前需提前瞭解輸入文本的預處理要求。

✨ 主要特性

多標籤分類：支持零樣本分類，可對文本進行多標籤分類。
自然語言推理：在自然語言推理任務中表現出色。
微調模型：基於預訓練的日語 RoBERTa 模型進行微調。

📦 安裝指南

使用該模型前，你需要安裝所需的庫。可以使用以下命令進行安裝：

pip install transformers pyknp datasets tokenizers torch

💻 使用示例

基礎用法

輸入文本應提前使用 Juman++ 進行分詞處理。以下是一個簡單的零樣本分類管道示例：

from transformers import pipeline
from pyknp import Juman

juman = Juman()

classifier = pipeline("zero-shot-classification", model="Formzu/roberta-base-japanese-jsnli")

sequence_to_classify = " ".join([tok.midasi for tok in juman.analysis("いつか世界を見る。").mrph_list()])

candidate_labels = ['旅行', '料理', '踴り']
out = classifier(sequence_to_classify, candidate_labels, hypothesis_template="この 例 は {} です 。")
print(out)
#{'sequence': 'いつか 世界 を 見る 。', 
# 'labels': ['旅行', '踴り', '料理'], 
# 'scores': [0.8998081684112549, 0.06059670448303223, 0.03959512338042259]}

高級用法

以下是一個自然語言推理用例：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from pyknp import Juman

juman = Juman()

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "Formzu/roberta-base-japanese-jsnli"
model = AutoModelForSequenceClassification.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)

premise = " ".join([tok.midasi for tok in juman.analysis("いつか世界を見る。").mrph_list()])
label = '旅行'
hypothesis = f'この 例 は {label} です 。'

input = tokenizer.encode(premise, hypothesis, return_tensors='pt').to(device)
with torch.no_grad():
    logits = model(input)["logits"][0]
    probs = logits.softmax(dim=-1)
    print(probs.cpu().numpy(), logits.cpu().numpy())
#[0.82168734 0.1744363  0.00387629] [ 2.3362164   0.78641605 -3.0202653 ]

📚 詳細文檔

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	2e-05
訓練批次大小	32
評估批次大小	32
隨機種子	42
優化器	Adam (betas=(0.9, 0.999), epsilon=1e-08)
學習率調度器類型	線性
訓練輪數	3.0