luke-japanese-base-finetuned-jsts开源模型 - 精准计算日语句子相似度

首页

Luke Japanese Base Finetuned Jsts

由 Mizuiro-sakura 开发

基于luke-japanese-base微调的日语句子相似度计算模型，在JSTS数据集上训练

文本嵌入

Transformers

日语开源协议:MIT #日语句子相似度 #高精度文本匹配 #实体感知注意力

下载量 15

发布时间 : 2/10/2023

模型简介

该模型专门用于计算日语句子之间的相似度，输出0-5分的相似度评分。基于LUKE架构，通过实体感知自注意力机制增强语义理解能力。

模型特点

实体感知自注意力

通过扩展传统Transformer的注意力机制，能同时处理单词和实体，增强语义理解

日语优化

专门针对日语文本进行预训练和微调，适合处理日语语义任务

高精度

在JSTS数据集上达到0.8971的皮尔逊相关系数，表现优异

模型能力

日语语义理解

句子相似度评分

文本对比较

使用案例

文本分析

问答系统

评估用户问题与知识库问题的相似度

提高问答匹配准确率

内容去重

识别语义相似的新闻或文档

有效减少重复内容

教育评估

答案评分

比较学生答案与标准答案的相似度

辅助自动化评分

🚀 微调版LUKE日语基础模型用于JSTS任务

本模型是对luke - japanese - base进行微调，使其适用于JSTS（句子相似度计算）任务。它借助yahoo japan/JGLUE的JSTS（https://github.com/yahoojapan/JGLUE ）数据集进行微调，可用于计算句子相似度（最高分为5分）。

🚀 快速开始

安装transformers和sentencepiece，并执行以下代码，即可进行JSTS（句子相似度计算）任务：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import numpy as np

tokenizer=AutoTokenizer.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-jsts')
model=AutoModelForSequenceClassification.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-jsts')
sentence1='今日は銀座に買い物に出かけた'
sentence2='今日は銀座に服を買いに出かけた'

token=tokenizer(sentence1,sentence2)

import torch
tensor_input_ids = torch.tensor(token["input_ids"])
tensor_attention_masks = torch.tensor(token["attention_mask"])

outputs=model(tensor_input_ids.unsqueeze(0), tensor_attention_masks.unsqueeze(0))

print(outputs.logits[0][1]*5)

✨ 主要特性

基于luke - japanese - base进行微调，适用于JSTS任务。
可用于计算句子相似度。

📦 安装指南

需要安装transformers和sentencepiece库，可使用以下命令进行安装：

pip install transformers sentencepiece

📚 详细文档

模型的精度

模型的精度通过皮尔逊积矩相关系数（Pearson）衡量，具体数值为： Pearson（皮尔逊的积率相关系数）: 0.8971

LUKE是什么？

LUKE（Language Understanding with Knowledge - based Embeddings）是一种基于Transformer的预训练词和实体上下文表示模型。它将给定文本中的单词和实体视为独立的标记，并输出它们的上下文表示。LUKE采用了实体感知的自注意力机制，这是Transformer自注意力机制的扩展，在计算注意力分数时会考虑标记的类型（单词或实体）。

LUKE在包括SQuAD v1.1（抽取式问答）、CoNLL - 2003（命名实体识别）、ReCoRD（完形填空式问答）、TACRED（关系分类）和Open Entity（实体类型）在内的五个流行NLP基准测试中取得了最先进的结果。luke - japanese是LUKE的日语版本，它将单词和实体作为独立的标记处理，并输出考虑上下文的表示。

📄 许可证

本模型采用MIT许可证。

📖 引用

[1]@inproceedings{yamada2020luke, title={LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention}, author={Ikuya Yamada and Akari Asai and Hiroyuki Shindo and Hideaki Takeda and Yuji Matsumoto}, booktitle={EMNLP}, year={2020} }