🚀 unsup - simcse - bert - large - uncased模型卡片
本模型主要用於特徵提取任務,由普林斯頓NLP團隊開發並共享。它基於BERT模型,在特徵提取方面有著獨特的優勢。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
✨ 主要特性
- 該模型可用於特徵提取任務。
- 無監督的SimCSE在英文維基百科隨機採樣的句子上訓練,有監督的SimCSE在MNLI和SNLI數據集組合上訓練。
- 無監督的SimCSE能有效提高預訓練嵌入的均勻性,同時保持良好的對齊性;結合有監督數據的SimCSE能進一步改善對齊性。
📦 安裝指南
文檔未提供具體安裝步驟,可參考相關GitHub倉庫:GitHub Repo。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發團隊 |
普林斯頓NLP團隊 |
共享團隊 |
普林斯頓NLP團隊 |
模型類型 |
特徵提取 |
父模型 |
BERT |
更多信息資源 |
GitHub倉庫,相關論文 |
使用場景
直接使用
此模型可用於特徵提取任務。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參考Sheng等人 (2021) 和 Bender等人 (2021))。模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議,還需要更多信息。
訓練詳情
訓練數據
模型創建者在相關GitHub倉庫中提到:“我們在從英文維基百科隨機採樣的106個句子上訓練無監督的SimCSE,並在MNLI和SNLI數據集的組合(31.4萬個樣本)上訓練有監督的SimCSE。”
訓練過程
預處理
更多信息待補充。
速度、規模、時間
超參數
模型創建者在相關GitHub倉庫中提到:
|
無監督BERT |
有監督 |
批量大小 |
64 |
512 |
學習率(大模型) |
1e - 5 |
1e - 5 |
評估
測試數據、因素和指標
測試數據
模型創建者在相關論文中提到:“我們用於句子嵌入的評估代碼基於SentEval的修改版本。它在語義文本相似度(STS)任務和下游遷移任務上評估句子嵌入。對於STS任務,我們的評估採用‘全’設置,並報告Spearman相關性。評估細節見相關論文(附錄B)。”
因素
更多信息待補充。
指標
更多信息待補充。
結果
更多信息待補充。
模型檢查
模型創建者在相關論文中提到:
均勻性和對齊性
我們還觀察到:(1) 儘管預訓練嵌入具有良好的對齊性,但它們的均勻性較差(即嵌入具有高度的各向異性);(2) 像BERT - flow和BERT - whitening這樣的後處理方法大大提高了均勻性,但也導致了對齊性的退化;(3) 無監督的SimCSE有效地提高了預訓練嵌入的均勻性,同時保持了良好的對齊性;(4) 在SimCSE中納入有監督數據進一步改善了對齊性。
環境影響
可以使用Lacoste等人 (2019) 提出的機器學習影響計算器來估算碳排放。
- 硬件類型:配備CUDA 11的Nvidia 3090 GPU
- 使用時長:更多信息待補充
- 雲服務提供商:更多信息待補充
- 計算區域:更多信息待補充
- 碳排放:更多信息待補充
技術規格(可選)
模型架構和目標
更多信息待補充。
計算基礎設施
硬件
更多信息待補充。
軟件
更多信息待補充。
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
模型卡片作者(可選)
普林斯頓NLP團隊與Ezi Ozoani和Hugging Face團隊合作完成。
模型卡片聯繫方式
如果您對代碼或論文有任何疑問,請隨時給Tianyu (tianyug@cs.princeton.edu
) 和Xingcheng (yxc18@mails.tsinghua.edu.cn
) 發郵件。如果您在使用代碼時遇到任何問題,或想報告一個錯誤,可以打開一個issue。請儘量詳細說明問題,以便我們能更好、更快地幫助您!