simcse-roberta-base-zh開源模型 - 免費計算中文句子相似度，提升匹配效果！

首頁

Simcse Roberta Base Zh

由hellonlp開發

SimCSE(監督版)是一個基於監督學習的中文句子相似度計算模型，通過對比學習優化句子嵌入表示。

文本嵌入

Transformers

中文開源協議:MIT #中文句子相似度 #多任務學習 #語義匹配

下載量 30

發布時間 : 9/15/2023

模型概述

該模型專注於中文句子相似度計算任務，通過監督學習方式訓練，能夠生成高質量的句子嵌入表示，用於衡量兩個句子的語義相似度。

模型特點

監督學習優化

採用監督學習方式訓練，相比無監督版本能更好地捕捉句子間的語義關係

多數據集訓練

在多箇中文句子相似度數據集上聯合訓練，提升模型泛化能力

對比學習框架

使用對比學習優化句子嵌入空間，使相似句子更接近，不相似句子更遠

模型能力

中文句子相似度計算

句子嵌入表示生成

語義相似度評估

使用案例

智能客服

用戶問題匹配

匹配用戶問題與知識庫中的相似問題

提高客服響應準確率和效率

信息檢索

語義搜索

根據查詢語句的語義而非關鍵詞進行文檔檢索

提升搜索結果的相關性

文本去重

相似文本檢測

識別內容相似的不同表述文本

有效減少重複內容

🚀 SimCSE(sup)

SimCSE(sup) 是一個用於句子相似度任務的模型。它基於特定的語言模型，在多箇中文數據集上進行評估，能夠將句子編碼為嵌入向量，並計算句子之間的餘弦相似度。

🚀 快速開始

本模型可用於將句子編碼為嵌入向量，還能計算兩個句子之間的餘弦相似度。以下是使用示例：

import torch
from transformers import BertTokenizer
from transformers import BertModel
from sklearn.metrics.pairwise import cosine_similarity

# model
simcse_sup_path = "hellonlp/simcse-roberta-base-zh"
tokenizer = BertTokenizer.from_pretrained(simcse_sup_path)
MODEL = BertModel.from_pretrained(simcse_sup_path)

def get_vector_simcse(sentence):
    """
    預測simcse的語義向量。
    """
    input_ids = torch.tensor(tokenizer.encode(sentence)).unsqueeze(0)
    output = MODEL(input_ids)
    return output.last_hidden_state[:, 0].squeeze(0)

embeddings = get_vector_simcse("武漢是一個美麗的城市。")
print(embeddings.shape)
#torch.Size([768])

def get_similarity_two(sentence1, sentence2):
    vec1 = get_vector_simcse(sentence1).tolist()
    vec2 = get_vector_simcse(sentence2).tolist()
    similarity_list = cosine_similarity([vec1], [vec2]).tolist()[0][0]
    return similarity_list

sentence1 = '你好嗎'
sentence2 = '你還好嗎'
result = get_similarity_two(sentence1,sentence2)
print(result) #0.7996
#(1.0, '你好嗎')
#(0.8247, '你好不好')
#(0.8217, '你現在好嗎')
#(0.7976, '你還好嗎')
#(0.7918, '你好不好呢')
#(0.712, '你過的好嗎')
#(0.6986, '你怎麼樣')
#(0.6693, '你')
#(0.5442, '你好個鬼')
#(0.4516, '你吃飯了嗎')
#(0.4, '我好開心啊')
#(0.29, '我不開心')
#(0.2782, '我吃了一個蘋果')

📦 數據集列表

以下數據集均為中文數據集：

數據集	訓練集規模	驗證集規模	測試集規模
ATEC	62477	20000	20000
BQ	100000	10000	10000
LCQMC	238766	8802	12500
PAWSX	49401	2000	2000
STS - B	5231	1458	1361
SNLI	146828	2699	2618
MNLI	122547	2932	2397

📊 模型列表

評估數據集為中文，我們在不同方法上使用了相同的語言模型 RoBERTa base。此外，考慮到部分數據集的測試集規模較小，可能導致評估準確性偏差較大，這裡的評估數據同時使用了訓練集、驗證集和測試集，最終評估結果採用 加權平均 (w - avg) 方法。

模型	STS - B(w - avg)	ATEC	BQ	LCQMC	PAWSX	平均
BERT - Whitening	65.27	-	-	-	-	-
SimBERT	70.01	-	-	-	-	-
SBERT - Whitening	71.75	-	-	-	-	-
[BAAI/bge - base - zh](https://huggingface.co/BAAI/bge - base - zh)	78.61	-	-	-	-	-
[hellonlp/simcse - base - zh(sup)](https://huggingface.co/hellonlp/simcse - roberta - base - zh)	80.96	-	-	-	-	-