🚀 sup-simcse-roberta-large 模型卡片
sup-simcse-roberta-large 是一个用于特征提取的模型,基于 RoBERTa-large 开发。它在自然语言处理领域有着特定的应用,能帮助用户完成特征提取任务。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
✨ 主要特性
📚 详细文档
模型详情
用途
直接使用
此模型可用于特征提取任务。
模型使用范围外情况
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人 (2021) 和 Bender 等人 (2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(包括直接用户和下游用户)应了解该模型的风险、偏差和局限性。关于进一步的建议,还需要更多信息。
训练详情
训练数据
模型创建者在 GitHub 仓库 中提到:
我们在从英文维基百科随机抽取的 106 个句子上训练无监督的 SimCSE,并在 MNLI 和 SNLI 数据集(314k)的组合上训练有监督的 SimCSE。
评估
测试数据、因素和指标
测试数据
模型创建者在 关联论文 中提到:
我们用于句子嵌入的评估代码基于 SentEval 的修改版本。它在语义文本相似度(STS)任务和下游迁移任务上评估句子嵌入。对于 STS 任务,我们的评估采用“all”设置,并报告 Spearman 相关性。有关评估详情,请参阅 关联论文(附录 B)。
环境影响
可以使用 Lacoste 等人 (2019) 中提出的 机器学习影响计算器 来估算碳排放。
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
更多信息
如果您有与代码或论文相关的任何问题,请随时给 Tianyu (tianyug@cs.princeton.edu
) 和 Xingcheng (yxc18@mails.tsinghua.edu.cn
) 发邮件。如果您在使用代码时遇到任何问题,或想报告一个错误,您可以创建一个 issue。请尽量详细说明问题,以便我们能更好、更快地帮助您!
模型卡片作者
Princeton NLP 团队与 Ezi Ozoani 以及 Hugging Face 团队合作完成。