unsup-simcse-bert-large-uncased开源模型 - 免费生成高质量句子嵌入用于无监督学习

首页

Unsup Simcse Bert Large Uncased

由 princeton-nlp 开发

SimCSE是一种简单的对比学习框架，用于生成高质量的句子嵌入，特别适用于无监督学习场景。

文本嵌入 #句子嵌入对比学习 #无监督语义相似度 #BERT特征提取

下载量 32

发布时间 : 3/2/2022

模型简介

该模型基于BERT架构，通过对比学习方式优化句子嵌入表示，可用于特征提取和语义相似度计算等任务。

模型特点

无监督对比学习

采用简单的对比学习框架，无需标注数据即可训练高质量的句子嵌入

BERT架构优化

基于BERT-large架构进行优化，保持良好对齐性的同时提升一致性

高效训练

使用相对较小的批处理量(64)和学习率(1e-5)进行训练

模型能力

句子嵌入生成

语义相似度计算

文本特征提取

使用案例

语义分析

语义文本相似度计算

计算两个句子之间的语义相似度

在STS任务上表现出色

信息检索

文档检索

基于语义相似度的文档检索系统

🚀 unsup - simcse - bert - large - uncased模型卡片

本模型主要用于特征提取任务，由普林斯顿NLP团队开发并共享。它基于BERT模型，在特征提取方面有着独特的优势。

🚀 快速开始

使用以下代码开始使用该模型：

点击展开

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

✨ 主要特性

该模型可用于特征提取任务。
无监督的SimCSE在英文维基百科随机采样的句子上训练，有监督的SimCSE在MNLI和SNLI数据集组合上训练。
无监督的SimCSE能有效提高预训练嵌入的均匀性，同时保持良好的对齐性；结合有监督数据的SimCSE能进一步改善对齐性。

📦 安装指南

文档未提供具体安装步骤，可参考相关GitHub仓库：GitHub Repo。

📚 详细文档

模型详情

属性	详情
开发团队	普林斯顿NLP团队
共享团队	普林斯顿NLP团队
模型类型	特征提取
父模型	BERT
更多信息资源	GitHub仓库，相关论文

使用场景

直接使用

此模型可用于特征提取任务。

超出适用范围的使用

该模型不应被用于故意为人们创造敌对或排斥的环境。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参考Sheng等人 (2021) 和 Bender等人 (2021)）。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（包括直接用户和下游用户）应该了解该模型的风险、偏差和局限性。关于进一步的建议，还需要更多信息。

训练详情

训练数据

模型创建者在相关GitHub仓库中提到：“我们在从英文维基百科随机采样的106个句子上训练无监督的SimCSE，并在MNLI和SNLI数据集的组合（31.4万个样本）上训练有监督的SimCSE。”

训练过程

预处理

更多信息待补充。

速度、规模、时间

超参数 模型创建者在相关GitHub仓库中提到：

	无监督BERT	有监督
批量大小	64	512
学习率（大模型）	1e - 5	1e - 5

评估

测试数据、因素和指标

测试数据

模型创建者在相关论文中提到：“我们用于句子嵌入的评估代码基于SentEval的修改版本。它在语义文本相似度（STS）任务和下游迁移任务上评估句子嵌入。对于STS任务，我们的评估采用‘全’设置，并报告Spearman相关性。评估细节见相关论文（附录B）。”

因素

更多信息待补充。

指标

更多信息待补充。

结果

更多信息待补充。

模型检查

模型创建者在相关论文中提到：

均匀性和对齐性 我们还观察到：(1) 尽管预训练嵌入具有良好的对齐性，但它们的均匀性较差（即嵌入具有高度的各向异性）；(2) 像BERT - flow和BERT - whitening这样的后处理方法大大提高了均匀性，但也导致了对齐性的退化；(3) 无监督的SimCSE有效地提高了预训练嵌入的均匀性，同时保持了良好的对齐性；(4) 在SimCSE中纳入有监督数据进一步改善了对齐性。

环境影响

可以使用Lacoste等人 (2019) 提出的机器学习影响计算器来估算碳排放。

硬件类型：配备CUDA 11的Nvidia 3090 GPU
使用时长：更多信息待补充
云服务提供商：更多信息待补充
计算区域：更多信息待补充
碳排放：更多信息待补充

技术规格（可选）

模型架构和目标

更多信息待补充。

计算基础设施

硬件

更多信息待补充。

软件

更多信息待补充。

引用

BibTeX：

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

模型卡片作者（可选）

普林斯顿NLP团队与Ezi Ozoani和Hugging Face团队合作完成。

模型卡片联系方式

如果您对代码或论文有任何疑问，请随时给Tianyu (tianyug@cs.princeton.edu) 和Xingcheng (yxc18@mails.tsinghua.edu.cn) 发邮件。如果您在使用代码时遇到任何问题，或想报告一个错误，可以打开一个issue。请尽量详细说明问题，以便我们能更好、更快地帮助您！