bert-base-japanese-jsnli開源日語模型 - 免費用於零樣本及文本分類任務

首頁

Bert Base Japanese Jsnli

由Formzu開發

基於BERT的日語自然語言推理模型，在JSNLI數據集上微調，適用於零樣本分類和文本分類任務。

文本分類

Transformers

支持多種語言#日語零樣本分類 #自然語言推理 #高準確率

下載量 175

發布時間 : 10/14/2022

模型概述

該模型是基於BERT架構的日語文本分類模型，專門針對自然語言推理任務進行優化，支持零樣本分類和文本分類應用。

模型特點

日語專用

基於日語BERT模型微調，專門針對日語文本處理優化

零樣本分類

支持無需訓練數據的零樣本分類任務

高準確率

在JSNLI開發集上達到92.88%的準確率

模型能力

文本分類

自然語言推理

零樣本分類

使用案例

文本分析

情感分析

分析日語文本的情感傾向

意圖識別

識別用戶輸入的意圖類別

內容分類

新聞分類

將日語新聞自動分類到預定義類別

🚀 bert-base-japanese-jsnli

本模型是 cl-tohoku/bert-base-japanese-v2 在 JSNLI 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.2085
準確率：0.9288

🚀 快速開始

模型使用方法

簡單的零樣本分類管道

from transformers import pipeline

classifier = pipeline("zero-shot-classification", model="Formzu/bert-base-japanese-jsnli")

sequence_to_classify = "いつか世界を見る。"
candidate_labels = ['旅行', '料理', '踴り']
out = classifier(sequence_to_classify, candidate_labels, hypothesis_template="この例は{}です。")
print(out)
#{'sequence': 'いつか世界を見る。', 
# 'labels': ['旅行', '料理', '踴り'], 
# 'scores': [0.6758995652198792, 0.22110949456691742, 0.1029909998178482]}

NLI 使用案例

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "Formzu/bert-base-japanese-jsnli"
model = AutoModelForSequenceClassification.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)

premise = "いつか世界を見る。"
label = '旅行'
hypothesis = f'この例は{label}です。'

input = tokenizer.encode(premise, hypothesis, return_tensors='pt').to(device)
with torch.no_grad():
    logits = model(input)["logits"][0]
    probs = logits.softmax(dim=-1)
    print(probs.cpu().numpy(), logits.cpu().numpy())
#[0.68940836 0.29482093 0.01577068] [ 1.7791482   0.92968255 -1.998533  ]