🚀 unsup - simcse - bert - large - uncased模型卡片
本模型主要用于特征提取任务,由普林斯顿NLP团队开发并共享。它基于BERT模型,在特征提取方面有着独特的优势。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
✨ 主要特性
- 该模型可用于特征提取任务。
- 无监督的SimCSE在英文维基百科随机采样的句子上训练,有监督的SimCSE在MNLI和SNLI数据集组合上训练。
- 无监督的SimCSE能有效提高预训练嵌入的均匀性,同时保持良好的对齐性;结合有监督数据的SimCSE能进一步改善对齐性。
📦 安装指南
文档未提供具体安装步骤,可参考相关GitHub仓库:GitHub Repo。
📚 详细文档
模型详情
属性 |
详情 |
开发团队 |
普林斯顿NLP团队 |
共享团队 |
普林斯顿NLP团队 |
模型类型 |
特征提取 |
父模型 |
BERT |
更多信息资源 |
GitHub仓库,相关论文 |
使用场景
直接使用
此模型可用于特征提取任务。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参考Sheng等人 (2021) 和 Bender等人 (2021))。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。关于进一步的建议,还需要更多信息。
训练详情
训练数据
模型创建者在相关GitHub仓库中提到:“我们在从英文维基百科随机采样的106个句子上训练无监督的SimCSE,并在MNLI和SNLI数据集的组合(31.4万个样本)上训练有监督的SimCSE。”
训练过程
预处理
更多信息待补充。
速度、规模、时间
超参数
模型创建者在相关GitHub仓库中提到:
|
无监督BERT |
有监督 |
批量大小 |
64 |
512 |
学习率(大模型) |
1e - 5 |
1e - 5 |
评估
测试数据、因素和指标
测试数据
模型创建者在相关论文中提到:“我们用于句子嵌入的评估代码基于SentEval的修改版本。它在语义文本相似度(STS)任务和下游迁移任务上评估句子嵌入。对于STS任务,我们的评估采用‘全’设置,并报告Spearman相关性。评估细节见相关论文(附录B)。”
因素
更多信息待补充。
指标
更多信息待补充。
结果
更多信息待补充。
模型检查
模型创建者在相关论文中提到:
均匀性和对齐性
我们还观察到:(1) 尽管预训练嵌入具有良好的对齐性,但它们的均匀性较差(即嵌入具有高度的各向异性);(2) 像BERT - flow和BERT - whitening这样的后处理方法大大提高了均匀性,但也导致了对齐性的退化;(3) 无监督的SimCSE有效地提高了预训练嵌入的均匀性,同时保持了良好的对齐性;(4) 在SimCSE中纳入有监督数据进一步改善了对齐性。
环境影响
可以使用Lacoste等人 (2019) 提出的机器学习影响计算器来估算碳排放。
- 硬件类型:配备CUDA 11的Nvidia 3090 GPU
- 使用时长:更多信息待补充
- 云服务提供商:更多信息待补充
- 计算区域:更多信息待补充
- 碳排放:更多信息待补充
技术规格(可选)
模型架构和目标
更多信息待补充。
计算基础设施
硬件
更多信息待补充。
软件
更多信息待补充。
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
模型卡片作者(可选)
普林斯顿NLP团队与Ezi Ozoani和Hugging Face团队合作完成。
模型卡片联系方式
如果您对代码或论文有任何疑问,请随时给Tianyu (tianyug@cs.princeton.edu
) 和Xingcheng (yxc18@mails.tsinghua.edu.cn
) 发邮件。如果您在使用代码时遇到任何问题,或想报告一个错误,可以打开一个issue。请尽量详细说明问题,以便我们能更好、更快地帮助您!