Diffcse - roberta - base - transオープンソースモデル - 無料でデプロイして文の差異に敏感な埋め込み学習を実現

ホーム

Diffcse Roberta Base Trans

voidismによって開発

DiffCSEは、文の差異に敏感な文埋め込みを学習するための教師なし対照学習フレームワークです。

テキスト埋め込み

Transformers

オープンソースライセンス:Apache-2.0 #文埋め込みの対照学習 #教師なし意味的類似性 #差異に敏感な表現

ダウンロード数 14

リリース時間 : 4/14/2022

モデル概要

DiffCSEは、元の文と編集された文の間の差異を学習することで文埋め込み表現を改善します。編集された文は、元の文をランダムにマスクし、マスク言語モデルからサンプリングすることで得られます。

モデル特徴

差異に敏感な文埋め込み

文間の微妙な差異に敏感な表現を学習し、意味的類似性判断能力を向上させる

教師なし対照学習

ラベル付けされたデータを必要とせず、自己教師あり方式で効果的な文表現を学習する

等変対照学習

特定のタイプの強化に対して不感でありながら他のタイプには敏感で、表現の質を向上させる

モデル能力

文埋め込み学習

意味的類似性計算

テキスト表現学習

使用事例

意味的解析

意味的テキスト類似性

2つの文の間の意味的類似度を計算する

STSタスクで教師なしSimCSEよりも2.3絶対ポイント高い

情報検索

ドキュメント検索

意味的類似性に基づくドキュメント検索システム

🚀 DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings

本プロジェクトは、文埋め込み学習のための教師なし対照学習フレームワークDiffCSEを提案します。DiffCSEは、元の文と編集された文の差分に敏感な文埋め込みを学習し、教師なし文表現学習方法の中で最先端の結果を達成します。

arXivリンク: https://arxiv.org/abs/2204.10298
NAACL 2022に掲載予定

著者: Yung-Sung Chuang, Rumen Dangovski, Hongyin Luo, Yang Zhang, Shiyu Chang, Marin Soljačić, Shang-Wen Li, Scott Wen-tau Yih, Yoon Kim, James Glass

当社のコードは主にSimCSEのコードに基づいています。詳細な情報は、彼らのリポジトリを参照してください。

✨ 主な機能

DiffCSE

DiffCSEは、文埋め込みを学習するための教師なし対照学習フレームワークです。DiffCSEは、元の文と編集された文の差分に敏感な文埋め込みを学習します。編集された文は、元の文を確率的にマスクし、マスク言語モデルからサンプリングすることで得られます。DiffSCEは、等変対照学習(Dangovski et al., 2021)の一例であり、対照学習を一般化し、特定のタイプの増幅に鈍感で、他の「有害な」タイプの増幅に敏感な表現を学習します。実験の結果、DiffCSEは教師なし文表現学習方法の中で最先端の結果を達成し、教師なしSimCSEを意味的テキスト類似性タスクで2.3ポイント上回っています。

📦 インストール

必要条件

Python 3.9.5

カスタマイズされたTransformersパッケージのインストール

cd transformers-4.2.1
pip install .

もしtransformers==4.2.1をpipを通じてすでにインストールしている場合は、modeling_bert.pyを<your_python_env>/site-packages/transformers/models/bert/modeling_bert.pyに、modeling_roberta.pyを<your_python_env>/site-packages/transformers/models/bert/modeling_roberta.pyに配置する必要があります。このパッケージの2つのファイルを変更して、BERT/RoBERTaを使用して_条件付き_事前学習タスクを実行できるようにしています。可能であれば、直接pipでカスタマイズされたTransformersパッケージをインストールしてください。

その他のパッケージのインストール

pip install -r requirements.txt

事前学習データセットのダウンロード

cd data
bash download_wiki.sh

下流データセットのダウンロード

cd SentEval/data/downstream/
bash download_dataset.sh

💻 使用例

基本的な使用法

# 学習コマンド (run_diffcse.shと同じ)
python train.py \
    --model_name_or_path bert-base-uncased \
    --generator_name distilbert-base-uncased \
    --train_file data/wiki1m_for_simcse.txt \
    --output_dir <your_output_model_dir> \
    --num_train_epochs 2 \
    --per_device_train_batch_size 64 \
    --learning_rate 7e-6 \
    --max_seq_length 32 \
    --evaluation_strategy steps \
    --metric_for_best_model stsb_spearman \
    --load_best_model_at_end \
    --eval_steps 125 \
    --pooler_type cls \
    --mlp_only_train \
    --overwrite_output_dir \
    --logging_first_step \
    --logging_dir <your_logging_dir> \
    --temp 0.05 \
    --do_train \
    --do_eval \
    --batchnorm \
    --lambda_weight 0.005 \
    --fp16 --masking_ratio 0.30

新しい引数:

--lambda_weight: 論文のセクション3で説明されているラムダ係数。
--masking_ratio: MLMジェネレーターがトークンをランダムに置き換えるためのマスク率。
--generator_name: ジェネレーターのモデル名。bert-base-uncasedの場合はdistilbert-base-uncasedを使用します。roberta-baseの場合はdistilroberta-baseを使用します。

SimCSEからの引数:

--train_file: 学習ファイルのパス (data/wiki1m_for_simcse.txt)。
--model_name_or_path: BERTベースのモデル (bert-base-uncased, bert-large-uncasedなど) やRoBERTaベースのモデル (RoBERTa-base, RoBERTa-large) などの事前学習チェックポイント。
--temp: 対照損失の温度。常に0.05を使用します。
--pooler_type: プーリング方法。
--mlp_only_train: 教師なしSimCSEまたはDiffCSEの場合、MLPレイヤーでモデルを学習し、MLPレイヤーなしでモデルをテストする方が良い結果が得られます。教師なしSimCSE/DiffCSEモデルを学習する際には、この引数を使用してください。

論文の結果については、CUDA 11.2を搭載したNVidia 2080Ti GPUを使用しています。異なるタイプのデバイスや異なるバージョンのCUDA/Python/PyTorchを使用すると、性能が若干異なる場合があります。

高度な使用法

# 評価コマンド
python evaluation.py \
    --model_name_or_path <your_output_model_dir> \
    --pooler cls_before_pooler \
    --task_set <sts|transfer|full> \
    --mode test

事前学習済みのDiffCSEチェックポイントを評価するには、以下のスクリプトを使用できます。

BERT

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

転移タスク

python evaluation.py \
    --model_name_or_path voidism/diffcse-bert-base-uncased-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

RoBERTa

STS

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-sts \
    --pooler cls_before_pooler \
    --task_set sts \
    --mode test

転移タスク

python evaluation.py \
    --model_name_or_path voidism/diffcse-roberta-base-trans \
    --pooler cls_before_pooler \
    --task_set transfer \
    --mode test

詳細な情報は、SimCSEのGitHubリポジトリを確認してください。

📚 ドキュメント

事前学習済みモデル

DiffCSE-BERT-base (STS): https://huggingface.co/voidism/diffcse-bert-base-uncased-sts
DiffCSE-BERT-base (転移タスク): https://huggingface.co/voidism/diffcse-bert-base-uncased-trans
DiffCSE-RoBERTa-base (STS): https://huggingface.co/voidism/diffcse-roberta-base-sts
DiffCSE-RoBERTa-base (転移タスク): https://huggingface.co/voidism/diffcse-roberta-base-trans

SimCSEが提供するAPIを使用してモデルをロードできます。詳細はGetting Startedを参照してください。

from diffcse import DiffCSE
model_bert_sts = DiffCSE("voidism/diffcse-bert-base-uncased-sts")
model_bert_trans = DiffCSE("voidism/diffcse-bert-base-uncased-trans")
model_roberta_sts = DiffCSE("voidism/diffcse-roberta-base-sts")
model_roberta_trans = DiffCSE("voidism/diffcse-roberta-base-trans")

引用

論文やSimCSEの論文があなたの研究に役立った場合は、引用してください！

@inproceedings{chuang2022diffcse,
   title={{DiffCSE}: Difference-based Contrastive Learning for Sentence Embeddings},
   author={Chuang, Yung-Sung and Dangovski, Rumen and Luo, Hongyin and Zhang, Yang and Chang, Shiyu and Soljacic, Marin and Li, Shang-Wen and Yih, Wen-tau and Kim, Yoon and Glass, James},
   booktitle={Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)},
   year={2022}
}

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}