🚀 sup-simcse-roberta-large 模型卡片
sup-simcse-roberta-large 是一個用於特徵提取的模型,基於 RoBERTa-large 開發。它在自然語言處理領域有著特定的應用,能幫助用戶完成特徵提取任務。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
✨ 主要特性
📚 詳細文檔
模型詳情
用途
直接使用
此模型可用於特徵提取任務。
模型使用範圍外情況
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人 (2021) 和 Bender 等人 (2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。關於進一步的建議,還需要更多信息。
訓練詳情
訓練數據
模型創建者在 GitHub 倉庫 中提到:
我們在從英文維基百科隨機抽取的 106 個句子上訓練無監督的 SimCSE,並在 MNLI 和 SNLI 數據集(314k)的組合上訓練有監督的 SimCSE。
評估
測試數據、因素和指標
測試數據
模型創建者在 關聯論文 中提到:
我們用於句子嵌入的評估代碼基於 SentEval 的修改版本。它在語義文本相似度(STS)任務和下游遷移任務上評估句子嵌入。對於 STS 任務,我們的評估採用“all”設置,並報告 Spearman 相關性。有關評估詳情,請參閱 關聯論文(附錄 B)。
環境影響
可以使用 Lacoste 等人 (2019) 中提出的 機器學習影響計算器 來估算碳排放。
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
更多信息
如果您有與代碼或論文相關的任何問題,請隨時給 Tianyu (tianyug@cs.princeton.edu
) 和 Xingcheng (yxc18@mails.tsinghua.edu.cn
) 發郵件。如果您在使用代碼時遇到任何問題,或想報告一個錯誤,您可以創建一個 issue。請儘量詳細說明問題,以便我們能更好、更快地幫助您!
模型卡片作者
Princeton NLP 團隊與 Ezi Ozoani 以及 Hugging Face 團隊合作完成。