DiffCSEオープンソースモデル - 無料で意味文書類似性タスクを支援し、文の差分分析能力を向上させます

ホーム

Diffcse Bert Base Uncased Sts

voidismによって開発

DiffCSEは、文の差異に敏感な文埋め込みを学習するための教師なし対照学習フレームワークで、ランダムマスキングとマスク言語モデルによるサンプリングを用いて編集文を生成し、意味的テキスト類似性タスクの性能を向上させます。

テキスト埋め込み

Transformers

オープンソースライセンス:Apache-2.0 #文埋め込みの対照学習 #教師なし表現学習 #意味的テキスト類似性

ダウンロード数 50

リリース時間 : 4/13/2022

モデル概要

DiffCSEは、元の文と編集された文との間の差異に敏感な文埋め込みを学習します。編集された文は、元の文をランダムにマスキングし、マスク言語モデルからサンプリングすることで得られます。この手法は、教師なし文表現学習において最先端の結果を達成しています。

モデル特徴

差異敏感な文埋め込み

元の文と編集された文との間の差異に敏感な表現を学習することで、意味理解能力を向上させます

教師なし対照学習

ラベル付きデータを必要とせず、自己教師信号を利用して高品質な文表現を学習します

等変対照学習

対照学習フレームワークを一般化し、特定の拡張には不感で他の拡張には敏感な表現を学習します

モデル能力

文埋め込み生成

意味的類似度計算

テキスト表現学習

使用事例

意味理解

意味的テキスト類似性

2つの文の間の意味的類似度を計算します

STSタスクにおいて教師なしSimCSEよりも2.3絶対ポイント高い性能

情報検索

文書検索

意味的類似度に基づく文書検索システム

🚀 DiffCSE: 文埋め込みのための差分ベースの対照的学習

DiffCSEは、文埋め込みを学習するための教師なし対照的学習フレームワークです。このフレームワークは、元の文と編集された文の差分に敏感な文埋め込みを学習します。

🚀 クイックスタート

本コードは主にSimCSEのコードをベースにしています。詳細な情報については、彼らのリポジトリを参照してください。

✨ 主な機能

教師なし対照的学習フレームワークであるDiffCSEを提案し、文埋め込みを学習します。
元の文と編集された文の差分に敏感な文埋め込みを学習します。
教師なし文表現学習方法の中で最先端の結果を達成します。

📦 インストール

必要条件

Python 3.9.5

カスタマイズされたTransformersパッケージのインストール

cd transformers-4.2.1
pip install .

⚠️ 重要提示

transformers==4.2.1をpip経由ですでにインストールしている場合は、modeling_bert.pyを<your_python_env>/site-packages/transformers/models/bert/modeling_bert.pyに、modeling_roberta.pyを<your_python_env>/site-packages/transformers/models/bert/modeling_roberta.pyに配置する必要があります。パッケージ内のこれら2つのファイルを変更することで、BERT/RoBERTaを使用した_条件付き_事前学習タスクを実行できます。可能であれば、カスタマイズされたTransformersパッケージを直接pipでインストールしてください。

その他のパッケージのインストール

pip install -r requirements.txt

事前学習データセットのダウンロード

cd data
bash download_wiki.sh

下流データセットのダウンロード

cd SentEval/data/downstream/
bash download_dataset.sh

💻 使用例

基本的な使用法

学習

python train.py \
    --model_name_or_path bert-base-uncased \
    --generator_name distilbert-base-uncased \
    --train_file data/wiki1m_for_simcse.txt \
    --output_dir <your_output_model_dir> \
    --num_train_epochs 2 \
    --per_device_train_batch_size 64 \
    --learning_rate 7e-6 \
    --max_seq_length 32 \
    --evaluation_strategy steps \
    --metric_for_best_model stsb_spearman \
    --load_best_model_at_end \
    --eval_steps 125 \
    --pooler_type cls \
    --mlp_only_train \
    --overwrite_output_dir \
    --logging_first_step \
    --logging_dir <your_logging_dir> \
    --temp 0.05 \
    --do_train \
    --do_eval \
    --batchnorm \
    --lambda_weight 0.005 \
    --fp16 --masking_ratio 0.30

新しい引数:

--lambda_weight: 論文のセクション3で述べたラムダ係数。
--masking_ratio: MLMジェネレータがトークンをランダムに置き換えるマスキング率。
--generator_name: ジェネレータのモデル名。bert-base-uncasedの場合はdistilbert-base-uncasedを使用します。roberta-baseの場合はdistilroberta-baseを使用します。

SimCSEからの引数:

--train_file: 学習ファイルのパス (data/wiki1m_for_simcse.txt)。
--model_name_or_path: BERTベースのモデル (bert-base-uncased, bert-large-uncasedなど) やRoBERTaベースのモデル (RoBERTa-base, RoBERTa-large) などの事前学習チェックポイント。
--temp: 対照的損失の温度。常に0.05を使用します。
--pooler_type: プーリング方法。
--mlp_only_train: 教師なしSimCSEまたはDiffCSEの場合、MLPレイヤーでモデルを学習し、それなしでテストする方が良い結果が得られます。教師なしSimCSE/DiffCSEモデルを学習する際にはこの引数を使用してください。

評価

python evaluation.py \
    --model_name_or_path <your_output_model_dir> \
    --pooler cls_before_pooler \
    --task_set <sts|transfer|full> \
    --mode test

事前学習されたDiffCSEチェックポイントを評価するには、以下のスクリプトを使用できます。

BERT

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

転移タスク

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

RoBERTa

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

転移タスク

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

事前学習モデルのロード

from diffcse import DiffCSE
model_bert_sts = DiffCSE("voidism/diffcse-bert-base-uncased-sts")
model_bert_trans = DiffCSE("voidism/diffcse-bert-base-uncased-trans")
model_roberta_sts = DiffCSE("voidism/diffcse-roberta-base-sts")
model_roberta_trans = DiffCSE("voidism/diffcse-roberta-base-trans")

📚 ドキュメント

DiffCSEは、文埋め込みを学習するための教師なし対照的学習フレームワークです。DiffCSEは、元の文と編集された文の差分に敏感な文埋め込みを学習します。編集された文は、元の文を確率的にマスクし、マスク言語モデルからサンプリングすることで得られます。DiffSCEは、等変対照的学習 (Dangovski et al., 2021) の一例であり、対照的学習を一般化し、特定のタイプの拡張に鈍感で、他の「有害な」タイプの拡張に敏感な表現を学習します。実験の結果、DiffCSEは教師なし文表現学習方法の中で最先端の結果を達成し、教師なしSimCSEを意味的テキスト類似性タスクで2.3ポイント上回っています。

📄 ライセンス

本プロジェクトはApache-2.0ライセンスの下で公開されています。

引用

論文があなたの研究に役立った場合は、以下の論文を引用してください。

@inproceedings{chuang2022diffcse,
   title={{DiffCSE}: Difference-based Contrastive Learning for Sentence Embeddings},
   author={Chuang, Yung-Sung and Dangovski, Rumen and Luo, Hongyin and Zhang, Yang and Chang, Shiyu and Soljacic, Marin and Li, Shang-Wen and Yih, Wen-tau and Kim, Yoon and Glass, James},
   booktitle={Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)},
   year={2022}
}

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}