simcse-roberta-base-zh开源模型 - 免费计算中文句子相似度，提升匹配效果！

首页

Simcse Roberta Base Zh

由 hellonlp 开发

SimCSE(监督版)是一个基于监督学习的中文句子相似度计算模型，通过对比学习优化句子嵌入表示。

文本嵌入

Transformers

中文开源协议:MIT #中文句子相似度 #多任务学习 #语义匹配

下载量 30

发布时间 : 9/15/2023

模型简介

该模型专注于中文句子相似度计算任务，通过监督学习方式训练，能够生成高质量的句子嵌入表示，用于衡量两个句子的语义相似度。

模型特点

监督学习优化

采用监督学习方式训练，相比无监督版本能更好地捕捉句子间的语义关系

多数据集训练

在多个中文句子相似度数据集上联合训练，提升模型泛化能力

对比学习框架

使用对比学习优化句子嵌入空间，使相似句子更接近，不相似句子更远

模型能力

中文句子相似度计算

句子嵌入表示生成

语义相似度评估

使用案例

智能客服

用户问题匹配

匹配用户问题与知识库中的相似问题

提高客服响应准确率和效率

信息检索

语义搜索

根据查询语句的语义而非关键词进行文档检索

提升搜索结果的相关性

文本去重

相似文本检测

识别内容相似的不同表述文本

有效减少重复内容

🚀 SimCSE(sup)

SimCSE(sup) 是一个用于句子相似度任务的模型。它基于特定的语言模型，在多个中文数据集上进行评估，能够将句子编码为嵌入向量，并计算句子之间的余弦相似度。

🚀 快速开始

本模型可用于将句子编码为嵌入向量，还能计算两个句子之间的余弦相似度。以下是使用示例：

import torch
from transformers import BertTokenizer
from transformers import BertModel
from sklearn.metrics.pairwise import cosine_similarity

# model
simcse_sup_path = "hellonlp/simcse-roberta-base-zh"
tokenizer = BertTokenizer.from_pretrained(simcse_sup_path)
MODEL = BertModel.from_pretrained(simcse_sup_path)

def get_vector_simcse(sentence):
    """
    预测simcse的语义向量。
    """
    input_ids = torch.tensor(tokenizer.encode(sentence)).unsqueeze(0)
    output = MODEL(input_ids)
    return output.last_hidden_state[:, 0].squeeze(0)

embeddings = get_vector_simcse("武汉是一个美丽的城市。")
print(embeddings.shape)
#torch.Size([768])

def get_similarity_two(sentence1, sentence2):
    vec1 = get_vector_simcse(sentence1).tolist()
    vec2 = get_vector_simcse(sentence2).tolist()
    similarity_list = cosine_similarity([vec1], [vec2]).tolist()[0][0]
    return similarity_list

sentence1 = '你好吗'
sentence2 = '你还好吗'
result = get_similarity_two(sentence1,sentence2)
print(result) #0.7996
#(1.0, '你好吗')
#(0.8247, '你好不好')
#(0.8217, '你现在好吗')
#(0.7976, '你还好吗')
#(0.7918, '你好不好呢')
#(0.712, '你过的好吗')
#(0.6986, '你怎么样')
#(0.6693, '你')
#(0.5442, '你好个鬼')
#(0.4516, '你吃饭了吗')
#(0.4, '我好开心啊')
#(0.29, '我不开心')
#(0.2782, '我吃了一个苹果')

📦 数据集列表

以下数据集均为中文数据集：

数据集	训练集规模	验证集规模	测试集规模
ATEC	62477	20000	20000
BQ	100000	10000	10000
LCQMC	238766	8802	12500
PAWSX	49401	2000	2000
STS - B	5231	1458	1361
SNLI	146828	2699	2618
MNLI	122547	2932	2397

📊 模型列表

评估数据集为中文，我们在不同方法上使用了相同的语言模型 RoBERTa base。此外，考虑到部分数据集的测试集规模较小，可能导致评估准确性偏差较大，这里的评估数据同时使用了训练集、验证集和测试集，最终评估结果采用 加权平均 (w - avg) 方法。

模型	STS - B(w - avg)	ATEC	BQ	LCQMC	PAWSX	平均
BERT - Whitening	65.27	-	-	-	-	-
SimBERT	70.01	-	-	-	-	-
SBERT - Whitening	71.75	-	-	-	-	-
[BAAI/bge - base - zh](https://huggingface.co/BAAI/bge - base - zh)	78.61	-	-	-	-	-
[hellonlp/simcse - base - zh(sup)](https://huggingface.co/hellonlp/simcse - roberta - base - zh)	80.96	-	-	-	-	-