simcse-roberta-large-zh開源模型 - 免費部署實現中文句子相似度精準計算

首頁

Simcse Roberta Large Zh

由hellonlp開發

SimCSE(sup) 是一個用於中文句子相似度任務的模型，可將句子編碼為嵌入向量並計算句子間的餘弦相似度。

文本嵌入

Transformers

中文開源協議:MIT #中文句子嵌入 #語義相似度計算 #RoBERTa架構

下載量 179

發布時間 : 1/9/2024

模型概述

該模型主要用於中文句子相似度計算任務，能夠將句子轉換為高質量的嵌入向量，並通過餘弦相似度衡量句子間的語義相似程度。

模型特點

高質量句子嵌入

能夠生成高質量的句子嵌入向量，有效捕捉句子語義

中文優化

專門針對中文文本進行了優化和訓練

多數據集評估

在多箇中文數據集上進行了全面評估

模型能力

句子向量化

語義相似度計算

中文文本處理

使用案例

文本相似度

問答系統

用於判斷用戶問題與知識庫問題的相似度

可準確匹配語義相似的問句

信息檢索

改進搜索結果的相關性排序

提升基於語義的檢索效果

自然語言處理

文本聚類

將語義相似的文檔自動分組

提高聚類質量

🚀 SimCSE(sup)

SimCSE(sup) 是一個用於句子相似度任務的模型，可將句子編碼為嵌入向量，並計算句子間的餘弦相似度。本項目使用了多種中文數據集進行評估，並提供了模型使用示例。

🚀 快速開始

本項目可用於句子相似度相關任務，你可以使用提供的模型將句子編碼為嵌入向量，也可以計算兩個句子之間的餘弦相似度。

✨ 主要特性

支持將句子編碼為嵌入向量。
可以計算兩個句子之間的餘弦相似度。
使用多種中文數據集進行評估，評估結果採用加權平均法。

📦 安裝指南

文檔未提供安裝步驟，可參考 transformers 庫的安裝方式：

pip install transformers

💻 使用示例

基礎用法

import torch
from transformers import BertTokenizer
from transformers import BertModel
from sklearn.metrics.pairwise import cosine_similarity

# model
simcse_sup_path = "hellonlp/simcse-roberta-large-zh"
tokenizer = BertTokenizer.from_pretrained(simcse_sup_path)
MODEL = BertModel.from_pretrained(simcse_sup_path)

def get_vector_simcse(sentence):
    """
    預測simcse的語義向量。
    """
    input_ids = torch.tensor(tokenizer.encode(sentence)).unsqueeze(0)
    output = MODEL(input_ids)
    return output.last_hidden_state[:, 0].squeeze(0)

embeddings = get_vector_simcse("武漢是一個美麗的城市。")
print(embeddings.shape)
#torch.Size([1024])

高級用法

def get_similarity_two(sentence1, sentence2):
    vec1 = get_vector_simcse(sentence1).tolist()
    vec2 = get_vector_simcse(sentence2).tolist()
    similarity_list = cosine_similarity([vec1], [vec2]).tolist()[0][0]
    return similarity_list

sentence1 = '你好嗎'
sentence2 = '你還好嗎'
result = get_similarity_two(sentence1,sentence2)
print(result)
#0.848331