Dj

由TaoH開發

基於bert-base-chinese的BERT模型，在百萬級語義相似度數據集SimCLUE上訓練而成，專為通用語義匹配場景設計，展現出優異的泛化能力。

文本嵌入

Transformers

#中文語義匹配 #泛化能力強 #百萬級訓練

下載量 14

發布時間 : 10/26/2022

模型概述

該模型是一箇中文句子嵌入模型，主要用於計算句子間的語義相似度，適用於語義搜索、文本匹配等任務。

模型特點

優異的泛化能力

在多個公開語義匹配數據集上表現出色，相比前代模型在多數任務中展現出更強的泛化能力。

通用語義匹配

專為通用語義匹配場景設計，適用於各種文本相似度計算任務。

基於大規模數據訓練

在百萬級語義相似度數據集SimCLUE上訓練而成。

模型能力

句子嵌入向量提取

語義相似度計算

文本特徵提取

語義搜索

使用案例

文本匹配

問答系統

用於計算問題和候選答案之間的語義相似度

信息檢索

用於改進搜索引擎的相關性排序

文本聚類

文檔歸類

基於語義相似度對文檔進行自動分類

🚀 DMetaSoul/sbert-chinese-general-v2

本模型適用於通用語義匹配場景，基於 bert-base-chinese 版本的 BERT 模型，在百萬級語義相似數據集 SimCLUE 上進行訓練。從效果來看，該模型在各種任務上泛化能力更好。

注：此模型的輕量化版本，也已經開源啦！

🚀 快速開始

本模型可以通過 sentence-transformers 框架或 HuggingFace Transformers 來使用，下面為你詳細介紹使用方法。

📦 安裝指南

若使用 sentence-transformers 框架，需先進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法

通過 sentence-transformers 框架載入該模型並進行文本表徵向量的提取：

from sentence_transformers import SentenceTransformer
sentences = ["我的兒子！他猛然間喊道，我的兒子在哪兒？", "我的兒子呢！他突然喊道，我的兒子在哪裡？"]

model = SentenceTransformer('DMetaSoul/sbert-chinese-general-v2')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

若不想使用 sentence-transformers，可以通過 HuggingFace Transformers 來載入該模型並進行文本向量抽取：

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["我的兒子！他猛然間喊道，我的兒子在哪兒？", "我的兒子呢！他突然喊道，我的兒子在哪裡？"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('DMetaSoul/sbert-chinese-general-v2')
model = AutoModel.from_pretrained('DMetaSoul/sbert-chinese-general-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

評估結果

該模型在公開的幾個語義匹配數據集上進行了評測，計算了向量相似度跟真實標籤之間的相關性係數：

	csts_dev	csts_test	afqmc	lcqmc	bqcorpus	pawsx	xiaobu
sbert-chinese-general-v1	84.54%	82.17%	23.80%	65.94%	45.52%	11.52%	48.51%
sbert-chinese-general-v2	77.20%	72.60%	36.80%	76.92%	49.63%	16.24%	63.16%