Erlangshen-SimCSE-110M-Chinese 开源模型 - 实现精准中文句子向量表征

Home

Erlangshen SimCSE 110M Chinese

Developed by IDEA-CCNL

基于SimCSE无监督版本，采用中文NLI数据进行有监督对比学习训练的中文句子向量表征模型

文本嵌入

Transformers

ChineseOpen Source License:Apache-2.0 #中文句向量 #无监督对比学习 #NLI优化

Downloads 186

Release Time : 11/7/2022

Model Overview

该模型通过对比学习训练，可直接提取句向量进行相似度计算，无需微调即可用于中文句对匹配任务

Model Features

中文优化

专门针对中文语言特性进行优化训练

直接句向量提取

无需微调即可通过[CLS]标记输出进行相似度判定

对比学习训练

采用无监督与有监督结合的对比学习方法

Model Capabilities

中文句子向量表征

句子相似度计算

文本匹配

Use Cases

文本匹配

问答系统

用于匹配用户问题与知识库中的候选答案

提高问答准确率

语义搜索

增强搜索引擎对查询语句的理解能力

提升搜索结果相关性

自然语言理解

文本分类

作为文本分类任务的特征提取器

🚀 二郎神SimCSE-110M中文模型

二郎神SimCSE-110M中文模型基于simcse无监督版本，使用搜集整理的中文NLI数据进行有监督任务训练，在中文句子对任务上表现出色，能有效提取句子向量进行相似度判断。

🚀 快速开始

模型主页与代码仓库

主页面：封神榜
GitHub仓库：Fengshenbang-LM

✨ 主要特性

本模型基于bert-base模型，利用大量无监督数据和有监督数据进行对比学习，无需微调即可利用模型输出的[CLS]进行相似度判断，直接具备提取句子向量的能力。

📦 安装指南

本模型可使用transformers库进行加载，以下是加载模型和分词器的代码：

from transformers import AutoTokenizer,AutoModelForMaskedLM
model =AutoModelForMaskedLM.from_pretrained('IDEA-CCNL/Erlangshen-SimCSE-110M-Chinese')
tokenizer = AutoTokenizer.from_pretrained('IDEA-CCNL/Erlangshen-SimCSE-110M-Chinese')

💻 使用示例

基础用法

以下是一个使用本模型计算两个句子相似度的示例代码：

import torch
from sklearn.metrics.pairwise import cosine_similarity

texta = '今天天气真不错，我们去散步吧！'
textb = '今天天气真糟糕，还是在宅家里写bug吧！'
inputs_a = tokenizer(texta,return_tensors="pt")
inputs_b = tokenizer(textb,return_tensors="pt")

outputs_a = model(**inputs_a ,output_hidden_states=True)
texta_embedding = outputs_a.hidden_states[-1][:,0,:].squeeze()

outputs_b = model(**inputs_b ,output_hidden_states=True)
textb_embedding = outputs_b.hidden_states[-1][:,0,:].squeeze()

# if you use cuda, the text_embedding should be textb_embedding.cpu().numpy()
# 或者用torch.no_grad():
with torch.no_grad():
    silimarity_soce = cosine_similarity(texta_embedding.reshape(1,-1),textb_embedding .reshape(1,-1))[0][0]
print(silimarity_soce)

📚 详细文档

模型分类

属性	详情
需求	通用
任务	自然语言理解
系列	二郎神
模型	Bert
参数	110M
额外	中文

模型信息

本模型在一些任务上的测评效果如下：

模型	LCQMC	BQ	PAWSX	ATEC	STS-B
Bert	62	38.62	17.38	28.98	68.27
Bert-large	63.78	37.51	18.63	30.24	68.87
RoBerta	67.3	39.89	16.79	30.57	69.36
RoBerta large	67.25	38.39	19.09	30.85	69.36
RoFormer	63.58	39.9	17.52	29.37	67.32
SimBERT	73.43	40.98	15.87	31.24	72
二郎神SimCSE-110M中文	74.94	56.97	21.84	34.12	70.5

备注：我们的模型是直接用[cls]，无whitening；其余模型是last avg + whitening

📄 许可证

本模型采用Apache-2.0许可证。

🔗 引用

如果您在您的工作中使用了我们的模型，可以引用我们的论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}