sup-simcse-bert-large-uncased オープンソース文埋め込みモデル

ホーム

Sup Simcse Bert Large Uncased

princeton-nlpによって開発

BERTアーキテクチャに基づく文埋め込みモデルで、対照学習により文表現を最適化し、特徴抽出タスクに適している

テキスト埋め込み #対照学習による埋め込み #意味的類似度計算 #BERT最適化

ダウンロード数 1,545

リリース時間 : 3/2/2022

モデル概要

このモデルはSimCSEの対照学習手法を用いてBERTの文埋め込み表現を最適化し、意味的類似度タスクの性能を向上させる

モデル特徴

対照学習による最適化

SimCSEの対照学習手法を採用し、文の整合性を保ちながら埋め込み空間の均一性を改善

教師あり学習の強化

MNLIとSNLIデータセットを組み合わせた教師あり学習により、文表現の品質をさらに向上

異方性の改善

従来のBERT埋め込みの異方性問題を効果的に解決し、より均一な意味空間を生成

モデル能力

文特徴抽出

意味的類似度計算

テキスト表現学習

使用事例

意味解析

意味的テキスト類似性(STS)

2つの文間の意味的類似度スコアを計算

STSベンチマークで優れた性能（具体的な指標は提供されていない）

下流NLPタスク

転移学習特徴

様々なNLP下流タスクの事前学習特徴として使用

🚀 baikal-sentiment-ballモデルカード

baikal-sentiment-ballは、特徴抽出タスクに使用できるモデルです。Princeton NLPグループによって開発され、BERTをベースとしています。

🚀 クイックスタート

以下のコードを使用して、モデルを使用することができます。

クリックして展開

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")

model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")

✨ 主な機能

このモデルは、特徴抽出タスクに使用できます。

📦 インストール

インストールに関する具体的な手順は、原ドキュメントに記載されていません。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")

model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")

📚 ドキュメント

モデルの詳細

属性	詳情
モデルタイプ	特徴抽出
親モデル	BERT
開発者	Princeton NLPグループ
共有元	Princeton NLPグループ
詳細情報リソース	GitHubリポジトリ、関連論文

使用方法

直接使用

このモデルは、特徴抽出タスクに使用できます。

アウトオブスコープの使用

このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。

バイアス、リスク、制限事項

言語モデルのバイアスと公平性の問題に関する重要な研究が行われています（例えば、Sheng et al. (2021) と Bender et al. (2021) を参照）。このモデルによって生成された予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的・職業的グループにまたがる有害なステレオタイプが含まれる可能性があります。

推奨事項

ユーザー（直接ユーザーと下流ユーザーの両方）は、このモデルのリスク、バイアス、および制限事項を認識する必要があります。さらなる推奨事項に関する詳細情報は必要です。

トレーニング詳細

トレーニングデータ

モデル作成者は Githubリポジトリで以下のように述べています。

私たちは、英語版Wikipediaからランダムにサンプリングされた106の文で教師なしSimCSEをトレーニングし、MNLIとSNLIデータセットの組み合わせ（314k）で教師ありSimCSEをトレーニングします。

トレーニング手順

前処理

詳細情報は必要です。

速度、サイズ、時間

詳細情報は必要です。

評価

テストデータ、要因、メトリクス

テストデータ

モデル作成者は関連論文で以下のように述べています。

私たちの文埋め込みの評価コードは、SentEval の修正版に基づいています。これは、意味的テキスト類似性（STS）タスクと下流の転移タスクで文埋め込みを評価します。

STSタスクの場合、私たちの評価は「all」設定を採用し、スピアマンの相関係数を報告します。評価の詳細については、関連論文（付録B）を参照してください。

要因

詳細情報は必要です。

メトリクス

詳細情報は必要です。

結果

詳細情報は必要です。

モデル検査

モデル作成者は関連論文で以下のように述べています。

均一性とアライメント 私たちはまた、(1) 事前学習された埋め込みは良好なアライメントを持っているが、その均一性は悪い（つまり、埋め込みは高度に異方性である）ことを観察しました。(2) BERT-flowやBERT-whiteningなどの事後処理方法は均一性を大幅に改善するが、アライメントの低下も招きます。(3) 教師なしSimCSEは、事前学習された埋め込みの均一性を効果的に改善しながら、良好なアライメントを維持します。(4) SimCSEに教師ありデータを組み込むことで、アライメントがさらに改善されます。

環境への影響

炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定することができます。

属性	詳情
ハードウェアタイプ	CUDA 11を搭載したNvidia 3090 GPU
使用時間	詳細情報は必要です
クラウドプロバイダー	詳細情報は必要です
コンピュートリージョン	詳細情報は必要です
排出された炭素量	詳細情報は必要です

技術仕様

モデルアーキテクチャと目的

詳細情報は必要です。

コンピュートインフラストラクチャ

ハードウェア

詳細情報は必要です。

ソフトウェア

詳細情報は必要です。

引用

BibTeX:

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

モデルカード作成者

Princeton NLPグループがEzi OzoaniおよびHugging Faceチームと協力して作成しました。

モデルカードの問い合わせ

コードまたは論文に関する質問がある場合は、Tianyu (tianyug@cs.princeton.edu) とXingcheng (yxc18@mails.tsinghua.edu.cn) にメールを送ってください。コードを使用する際に問題が発生した場合、またはバグを報告したい場合は、イシューを開くことができます。できるだけ問題を詳細に指定していただくと、より良く、より迅速にお手伝いすることができます！