🚀 unsup - simcse - bert - base - uncased模型卡
本模型主要用於特徵提取任務,基於BERT架構開發,能為相關的自然語言處理任務提供有效的特徵表示。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")
✨ 主要特性
- 可用於特徵工程任務。
- 基於BERT架構,在特徵提取方面有較好的表現。
📚 詳細文檔
模型詳情
- 開發者:Princeton NLP group
- 共享方:Hugging Face
- 模型類型:特徵提取
- 相關模型:父模型為BERT
- 更多信息資源:
使用場景
直接使用
該模型可用於特徵工程任務。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng等人 (2021) 和 Bender等人 (2021))。模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
直接和下游用戶都應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議,還需要更多信息。
訓練詳情
訓練數據
模型創建者在 Github倉庫 中提到:
我們在從英文維基百科中隨機抽取的106個句子上訓練無監督的SimCSE,並在MNLI和SNLI數據集(314k)的組合上訓練有監督的SimCSE。
評估
測試數據、因素和指標
測試數據
模型創建者在 關聯論文 中提到:
我們用於句子嵌入的評估代碼基於 SentEval 的修改版本。它在語義文本相似度(STS)任務和下游遷移任務上評估句子嵌入。對於STS任務,我們的評估採用“all”設置,並報告Spearman相關性。有關評估細節,請參閱 關聯論文(附錄B)。
模型分析
模型創建者在 關聯論文 中提到:
均勻性和對齊性
我們還觀察到:(1) 儘管預訓練嵌入具有良好的對齊性,但它們的均勻性較差(即嵌入具有高度的各向異性);(2) 像BERT - flow和BERT - whitening這樣的後處理方法大大提高了均勻性,但也導致了對齊性的退化;(3) 無監督的SimCSE有效地提高了預訓練嵌入的均勻性,同時保持了良好的對齊性;(4) 在SimCSE中加入有監督的數據進一步改善了對齊性。
環境影響
可以使用 Lacoste等人 (2019) 中提出的 機器學習影響計算器 來估算碳排放。
- 硬件類型:配備CUDA 11的Nvidia 3090 GPU
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
模型卡作者
Princeton NLP group與Ezi Ozoani和Hugging Face團隊合作
模型卡聯繫方式
如果您對代碼或論文有任何疑問,請隨時給Tianyu (tianyug@cs.princeton.edu
) 和Xingcheng (yxc18@mails.tsinghua.edu.cn
) 發郵件。如果您在使用代碼時遇到任何問題,或想報告一個錯誤,您可以打開一個issue。請儘量詳細說明問題,以便我們能更好、更快地幫助您!