🚀 unsup - simcse - bert - base - uncased模型卡
本模型主要用于特征提取任务,基于BERT架构开发,能为相关的自然语言处理任务提供有效的特征表示。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")
✨ 主要特性
- 可用于特征工程任务。
- 基于BERT架构,在特征提取方面有较好的表现。
📚 详细文档
模型详情
- 开发者:Princeton NLP group
- 共享方:Hugging Face
- 模型类型:特征提取
- 相关模型:父模型为BERT
- 更多信息资源:
使用场景
直接使用
该模型可用于特征工程任务。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng等人 (2021) 和 Bender等人 (2021))。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
直接和下游用户都应该了解该模型的风险、偏差和局限性。关于进一步的建议,还需要更多信息。
训练详情
训练数据
模型创建者在 Github仓库 中提到:
我们在从英文维基百科中随机抽取的106个句子上训练无监督的SimCSE,并在MNLI和SNLI数据集(314k)的组合上训练有监督的SimCSE。
评估
测试数据、因素和指标
测试数据
模型创建者在 关联论文 中提到:
我们用于句子嵌入的评估代码基于 SentEval 的修改版本。它在语义文本相似度(STS)任务和下游迁移任务上评估句子嵌入。对于STS任务,我们的评估采用“all”设置,并报告Spearman相关性。有关评估细节,请参阅 关联论文(附录B)。
模型分析
模型创建者在 关联论文 中提到:
均匀性和对齐性
我们还观察到:(1) 尽管预训练嵌入具有良好的对齐性,但它们的均匀性较差(即嵌入具有高度的各向异性);(2) 像BERT - flow和BERT - whitening这样的后处理方法大大提高了均匀性,但也导致了对齐性的退化;(3) 无监督的SimCSE有效地提高了预训练嵌入的均匀性,同时保持了良好的对齐性;(4) 在SimCSE中加入有监督的数据进一步改善了对齐性。
环境影响
可以使用 Lacoste等人 (2019) 中提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:配备CUDA 11的Nvidia 3090 GPU
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
模型卡作者
Princeton NLP group与Ezi Ozoani和Hugging Face团队合作
模型卡联系方式
如果您对代码或论文有任何疑问,请随时给Tianyu (tianyug@cs.princeton.edu
) 和Xingcheng (yxc18@mails.tsinghua.edu.cn
) 发邮件。如果您在使用代码时遇到任何问题,或想报告一个错误,您可以打开一个issue。请尽量详细说明问题,以便我们能更好、更快地帮助您!