bert-base-japanese-jsnli开源日语模型 - 免费用于零样本及文本分类任务

首页

Bert Base Japanese Jsnli

由 Formzu 开发

基于BERT的日语自然语言推理模型，在JSNLI数据集上微调，适用于零样本分类和文本分类任务。

文本分类

Transformers

支持多种语言#日语零样本分类 #自然语言推理 #高准确率

下载量 175

发布时间 : 10/14/2022

模型简介

该模型是基于BERT架构的日语文本分类模型，专门针对自然语言推理任务进行优化，支持零样本分类和文本分类应用。

模型特点

日语专用

基于日语BERT模型微调，专门针对日语文本处理优化

零样本分类

支持无需训练数据的零样本分类任务

高准确率

在JSNLI开发集上达到92.88%的准确率

模型能力

文本分类

自然语言推理

零样本分类

使用案例

文本分析

情感分析

分析日语文本的情感倾向

意图识别

识别用户输入的意图类别

内容分类

新闻分类

将日语新闻自动分类到预定义类别

🚀 bert-base-japanese-jsnli

本模型是 cl-tohoku/bert-base-japanese-v2 在 JSNLI 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.2085
准确率：0.9288

🚀 快速开始

模型使用方法

简单的零样本分类管道

from transformers import pipeline

classifier = pipeline("zero-shot-classification", model="Formzu/bert-base-japanese-jsnli")

sequence_to_classify = "いつか世界を見る。"
candidate_labels = ['旅行', '料理', '踊り']
out = classifier(sequence_to_classify, candidate_labels, hypothesis_template="この例は{}です。")
print(out)
#{'sequence': 'いつか世界を見る。', 
# 'labels': ['旅行', '料理', '踊り'], 
# 'scores': [0.6758995652198792, 0.22110949456691742, 0.1029909998178482]}

NLI 使用案例

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "Formzu/bert-base-japanese-jsnli"
model = AutoModelForSequenceClassification.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)

premise = "いつか世界を見る。"
label = '旅行'
hypothesis = f'この例は{label}です。'

input = tokenizer.encode(premise, hypothesis, return_tensors='pt').to(device)
with torch.no_grad():
    logits = model(input)["logits"][0]
    probs = logits.softmax(dim=-1)
    print(probs.cpu().numpy(), logits.cpu().numpy())
#[0.68940836 0.29482093 0.01577068] [ 1.7791482   0.92968255 -1.998533  ]