unsup-simcse-bert-base-uncased開源模型 - 提升句子嵌入質量的有效工具

首頁

Unsup Simcse Bert Base Uncased

由princeton-nlp開發

基於BERT架構的無監督對比學習模型，通過簡單有效的對比學習框架提升句子嵌入質量

文本嵌入 #句子嵌入 #對比學習 #無監督訓練

下載量 9,546

發布時間 : 3/2/2022

模型概述

該模型採用對比學習框架SimCSE，通過無監督方式學習句子嵌入表示，適用於特徵提取任務

模型特點

無監督對比學習

僅需原始文本即可學習高質量句子嵌入，無需標註數據

簡單高效

通過dropout機制構建正樣本對，無需複雜數據增強

各向同性優化

有效改善預訓練模型的各向異性問題，提升嵌入空間一致性

模型能力

句子嵌入提取

語義相似度計算

文本特徵表示學習

使用案例

語義檢索

文檔相似度匹配

計算文檔/句子間的語義相似度

在STS任務上表現優異

下游NLP任務

遷移學習特徵提取

作為預訓練特徵用於分類/聚類任務

🚀 unsup - simcse - bert - base - uncased模型卡

本模型主要用於特徵提取任務，基於BERT架構開發，能為相關的自然語言處理任務提供有效的特徵表示。

🚀 快速開始

使用以下代碼開始使用該模型：

點擊展開

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")

model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")

✨ 主要特性

可用於特徵工程任務。
基於BERT架構，在特徵提取方面有較好的表現。

📚 詳細文檔

模型詳情

開發者：Princeton NLP group
共享方：Hugging Face
模型類型：特徵提取
相關模型：父模型為BERT
更多信息資源：

使用場景

直接使用

該模型可用於特徵工程任務。

超出適用範圍的使用

該模型不應被用於故意為人們創造敵對或排斥性的環境。

偏差、風險和侷限性

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見 Sheng等人 (2021) 和 Bender等人 (2021)）。模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。

建議

直接和下游用戶都應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議，還需要更多信息。

訓練詳情

訓練數據

模型創建者在 Github倉庫中提到：

我們在從英文維基百科中隨機抽取的106個句子上訓練無監督的SimCSE，並在MNLI和SNLI數據集（314k）的組合上訓練有監督的SimCSE。

評估

測試數據、因素和指標

測試數據

模型創建者在關聯論文中提到：

我們用於句子嵌入的評估代碼基於 SentEval 的修改版本。它在語義文本相似度（STS）任務和下游遷移任務上評估句子嵌入。對於STS任務，我們的評估採用“all”設置，並報告Spearman相關性。有關評估細節，請參閱關聯論文（附錄B）。

模型分析

模型創建者在關聯論文中提到：

均勻性和對齊性 我們還觀察到：(1) 儘管預訓練嵌入具有良好的對齊性，但它們的均勻性較差（即嵌入具有高度的各向異性）；(2) 像BERT - flow和BERT - whitening這樣的後處理方法大大提高了均勻性，但也導致了對齊性的退化；(3) 無監督的SimCSE有效地提高了預訓練嵌入的均勻性，同時保持了良好的對齊性；(4) 在SimCSE中加入有監督的數據進一步改善了對齊性。

環境影響

可以使用 Lacoste等人 (2019) 中提出的機器學習影響計算器來估算碳排放。

硬件類型：配備CUDA 11的Nvidia 3090 GPU

引用

BibTeX：

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

模型卡作者

Princeton NLP group與Ezi Ozoani和Hugging Face團隊合作

模型卡聯繫方式

如果您對代碼或論文有任何疑問，請隨時給Tianyu (tianyug@cs.princeton.edu) 和Xingcheng (yxc18@mails.tsinghua.edu.cn) 發郵件。如果您在使用代碼時遇到任何問題，或想報告一個錯誤，您可以打開一個issue。請儘量詳細說明問題，以便我們能更好、更快地幫助您！