🚀 貝加爾情感球模型卡片
貝加爾情感球(baikal - sentiment - ball)是一款用於特徵提取的模型,基於BERT架構開發。它在自然語言處理領域有一定的應用價值,不過在使用時也需要注意其存在的風險和侷限性。
🚀 快速開始
使用以下代碼來開始使用該模型:
點擊展開
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")
✨ 主要特性
該模型主要用於特徵提取任務。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發團隊 |
Princeton NLP group |
共享團隊 |
Princeton NLP group |
模型類型 |
特徵提取 |
父模型 |
BERT |
更多信息資源 |
GitHub倉庫 相關論文 |
使用方式
直接使用
此模型可用於特徵提取任務。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng et al. (2021) 和 Bender et al. (2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議,還需要更多信息。
訓練詳情
訓練數據
模型創建者在 Github倉庫 中提到:
我們在從英文維基百科隨機抽取的106個句子上訓練無監督的SimCSE,並在MNLI和SNLI數據集(314k)的組合上訓練有監督的SimCSE。
評估
測試數據、因素和指標
測試數據
模型創建者在 相關論文 中提到:
我們用於句子嵌入的評估代碼基於 SentEval 的修改版本。它在語義文本相似度(STS)任務和下游遷移任務上評估句子嵌入。
對於STS任務,我們的評估採用“全部”設置,並報告Spearman相關性。有關評估詳情,請參閱 相關論文(附錄B)。
模型檢查
模型創建者在 相關論文 中指出:
均勻性和對齊性
我們還觀察到:(1) 儘管預訓練嵌入具有良好的對齊性,但它們的均勻性較差(即嵌入具有高度各向異性);(2) 像BERT - flow和BERT - whitening這樣的後處理方法大大提高了均勻性,但也導致了對齊性的退化;(3) 無監督的SimCSE有效地提高了預訓練嵌入的均勻性,同時保持了良好的對齊性;(4) 在SimCSE中加入有監督數據進一步改善了對齊性。
環境影響
可以使用 Lacoste et al. (2019) 中提出的 機器學習影響計算器 來估算碳排放。
屬性 |
詳情 |
硬件類型 |
帶有CUDA 11的Nvidia 3090 GPU |
使用時長 |
更多信息待補充 |
雲服務提供商 |
更多信息待補充 |
計算區域 |
更多信息待補充 |
碳排放 |
更多信息待補充 |
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
模型卡片作者
Princeton NLP group與Ezi Ozoani和Hugging Face團隊合作完成。
模型卡片聯繫方式
如果您對代碼或論文有任何疑問,請隨時給Tianyu (tianyug@cs.princeton.edu
) 和Xingcheng (yxc18@mails.tsinghua.edu.cn
) 發送電子郵件。如果您在使用代碼時遇到任何問題,或者想報告一個錯誤,您可以打開一個問題。請儘量詳細說明問題,以便我們能更好、更快地幫助您!