DiffCSE開源模型 - 免費助力語義文本相似性任務，提升句子差異分析能力

首頁

Diffcse Bert Base Uncased Sts

由voidism開發

DiffCSE是一種無監督對比學習框架，用於學習對句子差異敏感的句子嵌入，通過隨機掩碼和掩碼語言模型採樣生成編輯句子，提升語義文本相似性任務表現。

文本嵌入

Transformers

開源協議:Apache-2.0 #句子嵌入對比學習 #無監督表示學習 #語義文本相似性

下載量 50

發布時間 : 4/13/2022

模型概述

DiffCSE通過學習對原始句子與編輯後句子之間差異敏感的句子嵌入，其中編輯後的句子是通過隨機掩碼原始句子並從掩碼語言模型中採樣得到的。該方法在無監督句子表示學習中取得了最先進的結果。

模型特點

差異敏感的句子嵌入

通過學習對原始句子與編輯後句子之間差異敏感的表示，提升語義理解能力

無監督對比學習

無需標註數據即可訓練，利用自監督信號學習高質量句子表示

等變對比學習

泛化對比學習框架，學習對某些增強不敏感而對其他增強敏感的表示

模型能力

句子嵌入生成

語義相似度計算

文本表示學習

使用案例

語義理解

語義文本相似性

計算兩個句子之間的語義相似度

在STS任務上比無監督SimCSE高出2.3個絕對百分點

信息檢索

文檔檢索

基於語義相似度的文檔檢索系統

🚀 DiffCSE：基於差異的句子嵌入對比學習

DiffCSE 是一種無監督對比學習框架，用於學習句子嵌入。它學習對原句子和編輯後句子之間差異敏感的句子嵌入，在語義文本相似性任務上取得了無監督句子表示學習方法中的最優結果。

🚀 快速開始

我們的代碼主要基於 SimCSE 的代碼。更多詳細信息請參考他們的倉庫。

✨ 主要特性

DiffCSE

我們提出了 DiffCSE，一種用於學習句子嵌入的無監督對比學習框架。DiffCSE 學習對原句子和編輯後句子之間差異敏感的句子嵌入，其中編輯後的句子是通過隨機屏蔽原句子，然後從掩碼語言模型中採樣得到的。我們證明了 DiffSCE 是等變對比學習 (Dangovski 等人，2021) 的一個實例，它推廣了對比學習，並學習對某些類型的增強不敏感、對其他“有害”類型的增強敏感的表示。我們的實驗表明，DiffCSE 在無監督句子表示學習方法中取得了最先進的結果，在語義文本相似性任務上比無監督 SimCSE 高出 2.3 個絕對百分點。

📦 安裝指南

要求

Python 3.9.5

安裝我們定製的 Transformers 包

cd transformers-4.2.1
pip install .

⚠️ 重要提示

如果你已經通過 pip 安裝了 transformers==4.2.1，你需要將 modeling_bert.py 放入 <your_python_env>/site-packages/transformers/models/bert/modeling_bert.py，並將 modeling_roberta.py 放入 <your_python_env>/site-packages/transformers/models/bert/modeling_roberta.py。我們修改了包中的這兩個文件，以便我們可以使用 BERT/RoBERTa 執行條件預訓練任務。如果可能，請直接使用 pip 安裝我們定製的 Transformers 包。

安裝其他包

pip install -r requirements.txt

下載預訓練數據集

cd data
bash download_wiki.sh

下載下游數據集

cd SentEval/data/downstream/
bash download_dataset.sh

💻 使用示例

訓練

（與 run_diffcse.sh 相同。）

python train.py \
    --model_name_or_path bert-base-uncased \
    --generator_name distilbert-base-uncased \
    --train_file data/wiki1m_for_simcse.txt \
    --output_dir <your_output_model_dir> \
    --num_train_epochs 2 \
    --per_device_train_batch_size 64 \
    --learning_rate 7e-6 \
    --max_seq_length 32 \
    --evaluation_strategy steps \
    --metric_for_best_model stsb_spearman \
    --load_best_model_at_end \
    --eval_steps 125 \
    --pooler_type cls \
    --mlp_only_train \
    --overwrite_output_dir \
    --logging_first_step \
    --logging_dir <your_logging_dir> \
    --temp 0.05 \
    --do_train \
    --do_eval \
    --batchnorm \
    --lambda_weight 0.005 \
    --fp16 --masking_ratio 0.30

我們的新參數：

--lambda_weight：我們論文第 3 節中提到的 lambda 係數。
--masking_ratio：MLM 生成器隨機替換標記的掩碼比率。
--generator_name：生成器的模型名稱。對於 bert-base-uncased，我們使用 distilbert-base-uncased。對於 roberta-base，我們使用 distilroberta-base。

來自 SimCSE 的參數：

--train_file：訓練文件路徑 (data/wiki1m_for_simcse.txt)。
--model_name_or_path：預訓練檢查點，如基於 BERT 的模型 (bert-base-uncased, bert-large-uncased 等) 和基於 RoBERTa 的模型 (RoBERTa-base, RoBERTa-large)。
--temp：對比損失的溫度。我們始終使用 0.05。
--pooler_type：池化方法。
--mlp_only_train：對於無監督 SimCSE 或 DiffCSE，使用 MLP 層訓練模型但不使用它進行測試效果更好。在訓練無監督 SimCSE/DiffCSE 模型時應使用此參數。

對於我們論文中的結果，我們使用帶有 CUDA 11.2 的 NVidia 2080Ti GPU。使用不同類型的設備或不同版本的 CUDA/Python/PyTorch 可能會導致性能略有不同。

評估

我們提供了一個簡單的 Colab 筆記本，可輕鬆復現我們的結果。我們也可以運行以下命令進行評估：

python evaluation.py \
    --model_name_or_path <your_output_model_dir> \
    --pooler cls_before_pooler \
    --task_set <sts|transfer|full> \
    --mode test

要評估我們預訓練的 DiffCSE 檢查點，我們可以使用以下腳本：

BERT

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

遷移任務

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

RoBERTa

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

遷移任務

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

更多詳細信息，請查看 SimCSE 的 GitHub 倉庫。

加載預訓練模型

我們可以使用 SimCSE 提供的 API 加載模型。更多信息請參閱入門指南。

from diffcse import DiffCSE
model_bert_sts = DiffCSE("voidism/diffcse-bert-base-uncased-sts")
model_bert_trans = DiffCSE("voidism/diffcse-bert-base-uncased-trans")
model_roberta_sts = DiffCSE("voidism/diffcse-roberta-base-sts")
model_roberta_trans = DiffCSE("voidism/diffcse-roberta-base-trans")

📚 詳細文檔

預訓練模型

DiffCSE-BERT-base (STS): https://huggingface.co/voidism/diffcse-bert-base-uncased-sts
DiffCSE-BERT-base (遷移任務): https://huggingface.co/voidism/diffcse-bert-base-uncased-trans
DiffCSE-RoBERTa-base (STS): https://huggingface.co/voidism/diffcse-roberta-base-sts
DiffCSE-RoBERTa-base (遷移任務): https://huggingface.co/voidism/diffcse-roberta-base-trans

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 引用

如果我們的論文和 SimCSE 論文對你的工作有幫助，請引用它們！

@inproceedings{chuang2022diffcse,
   title={{DiffCSE}: Difference-based Contrastive Learning for Sentence Embeddings},
   author={Chuang, Yung-Sung and Dangovski, Rumen and Luo, Hongyin and Zhang, Yang and Chang, Shiyu and Soljacic, Marin and Li, Shang-Wen and Yih, Wen-tau and Kim, Yoon and Glass, James},
   booktitle={Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)},
   year={2022}
}

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}