simcse-roberta-large-zh开源模型 - 免费部署实现中文句子相似度精准计算

首页

Simcse Roberta Large Zh

由 hellonlp 开发

SimCSE(sup) 是一个用于中文句子相似度任务的模型，可将句子编码为嵌入向量并计算句子间的余弦相似度。

文本嵌入

Transformers

中文开源协议:MIT #中文句子嵌入 #语义相似度计算 #RoBERTa架构

下载量 179

发布时间 : 1/9/2024

模型简介

该模型主要用于中文句子相似度计算任务，能够将句子转换为高质量的嵌入向量，并通过余弦相似度衡量句子间的语义相似程度。

模型特点

高质量句子嵌入

能够生成高质量的句子嵌入向量，有效捕捉句子语义

中文优化

专门针对中文文本进行了优化和训练

多数据集评估

在多个中文数据集上进行了全面评估

模型能力

句子向量化

语义相似度计算

中文文本处理

使用案例

文本相似度

问答系统

用于判断用户问题与知识库问题的相似度

可准确匹配语义相似的问句

信息检索

改进搜索结果的相关性排序

提升基于语义的检索效果

自然语言处理

文本聚类

将语义相似的文档自动分组

提高聚类质量

🚀 SimCSE(sup)

SimCSE(sup) 是一个用于句子相似度任务的模型，可将句子编码为嵌入向量，并计算句子间的余弦相似度。本项目使用了多种中文数据集进行评估，并提供了模型使用示例。

🚀 快速开始

本项目可用于句子相似度相关任务，你可以使用提供的模型将句子编码为嵌入向量，也可以计算两个句子之间的余弦相似度。

✨ 主要特性

支持将句子编码为嵌入向量。
可以计算两个句子之间的余弦相似度。
使用多种中文数据集进行评估，评估结果采用加权平均法。

📦 安装指南

文档未提供安装步骤，可参考 transformers 库的安装方式：

pip install transformers

💻 使用示例

基础用法

import torch
from transformers import BertTokenizer
from transformers import BertModel
from sklearn.metrics.pairwise import cosine_similarity

# model
simcse_sup_path = "hellonlp/simcse-roberta-large-zh"
tokenizer = BertTokenizer.from_pretrained(simcse_sup_path)
MODEL = BertModel.from_pretrained(simcse_sup_path)

def get_vector_simcse(sentence):
    """
    预测simcse的语义向量。
    """
    input_ids = torch.tensor(tokenizer.encode(sentence)).unsqueeze(0)
    output = MODEL(input_ids)
    return output.last_hidden_state[:, 0].squeeze(0)

embeddings = get_vector_simcse("武汉是一个美丽的城市。")
print(embeddings.shape)
#torch.Size([1024])

高级用法

def get_similarity_two(sentence1, sentence2):
    vec1 = get_vector_simcse(sentence1).tolist()
    vec2 = get_vector_simcse(sentence2).tolist()
    similarity_list = cosine_similarity([vec1], [vec2]).tolist()[0][0]
    return similarity_list

sentence1 = '你好吗'
sentence2 = '你还好吗'
result = get_similarity_two(sentence1,sentence2)
print(result)
#0.848331