all - mpnet - base - v2オープンソースモデル - テキストからベクトルへのマッピングを実現し、意味検索と類似度計算を支援

ホーム

All Mpnet Base V2 Feature Extraction Pipeline

questgenによって開発

MPNetアーキテクチャに基づく文埋め込みモデルで、テキストを768次元ベクトル空間にマッピングし、意味検索や文の類似度計算に適しています

テキスト埋め込み

PyTorch

英語オープンソースライセンス:Apache-2.0 #文の類似度計算 #意味検索の最適化 #高次元ベクトル埋め込み

ダウンロード数 78

リリース時間 : 5/15/2022

モデル概要

このモデルは文変換器で、文や段落を768次元の密なベクトル表現に変換でき、情報検索、クラスタリング、意味的類似度計算などのタスクに適しています。

モデル特徴

効率的な意味エンコーディング

文や段落を768次元ベクトルに効率的にエンコードし、意味情報を保持します

大規模トレーニング

10億以上の文ペアのデータセットでトレーニングされ、豊富な意味関係を学習しています

対照学習の最適化

対照学習目標を用いて微調整し、文の類似度判断能力を向上させます

TPU最適化トレーニング

7つのTPU v3-8を使用して効率的にトレーニングされ、FlaxとJAXフレームワークの恩恵を受けています

モデル能力

文のベクトル化

意味的類似度計算

情報検索

テキストクラスタリング

段落エンコーディング

使用事例

情報検索

意味検索

クエリとドキュメントをベクトルに変換し、キーワードではなく意味に基づく検索を実現します

検索結果の関連性を向上させます

テキスト分析

ドキュメントクラスタリング

類似ドキュメントをグループ化し、トピックモデリングやコンテンツ分析に使用します

ドキュメントコレクション内のトピック構造を自動的に発見します

質問応答システム

質問マッチング

ユーザーの質問とナレッジベースの質問の類似度を計算します

質問応答システムの精度を向上させます

🚀 all-mpnet-base-v2

このモデルはsentence-transformersを使用したもので、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

🚀 クイックスタート

sentence-transformersを使用する場合

sentence-transformersをインストールすると、このモデルの使用が簡単になります。

pip install -U sentence-transformers

その後、以下のようにモデルを使用できます。

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

HuggingFace Transformersを使用する場合

sentence-transformersを使用せずに、以下のようにモデルを使用できます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください: https://seb.sbert.net

背景

このプロジェクトの目的は、自己教師付きのコントラスト学習目標を使用して、非常に大規模な文章レベルのデータセットで文章埋め込みモデルを学習させることです。事前学習されたmicrosoft/mpnet-baseモデルを使用し、10億件の文章ペアデータセットでファインチューニングを行いました。コントラスト学習目標を使用しており、ペアからの文章が与えられた場合、モデルはランダムにサンプリングされた他の文章のセットの中から、実際にデータセットでペアになっている文章を予測する必要があります。

このモデルは、Hugging Faceが主催するCommunity week using JAX/Flax for NLP & CVの間に開発されました。Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発され、7台のTPU v3 - 8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、Cloudチームメンバーからの効率的な深層学習フレームワークに関する助言も得ました。

想定される用途

このモデルは、文章や短い段落のエンコーダーとして使用することを想定しています。入力テキストが与えられると、意味情報を捉えたベクトルを出力します。この文章ベクトルは、情報検索、クラスタリング、文章類似度タスクに使用できます。

デフォルトでは、384語片より長い入力テキストは切り捨てられます。

学習手順

事前学習

事前学習済みのmicrosoft/mpnet-baseモデルを使用しています。事前学習手順の詳細については、モデルカードを参照してください。

ファインチューニング

コントラスト目標を使用してモデルをファインチューニングしています。正式には、バッチ内のすべての可能な文章ペアからコサイン類似度を計算し、真のペアと比較して交差エントロピー損失を適用します。

ハイパーパラメータ

このモデルはTPU v3 - 8で学習されました。バッチサイズ1024（TPUコアあたり128）を使用して100,000ステップ学習されました。学習率のウォームアップは500ステップで行い、シーケンス長は128トークンに制限されました。AdamWオプティマイザーを使用し、学習率は2e - 5です。完全な学習スクリプトはこのリポジトリのtrain_script.pyで入手できます。

学習データ

複数のデータセットを連結してモデルをファインチューニングしています。文章ペアの総数は10億を超えています。各データセットは重み付き確率に基づいてサンプリングされ、その設定はdata_config.jsonファイルに詳細が記載されています。

データセット	論文	学習タプル数
Reddit comments (2015 - 2018)	論文	726,484,430
S2ORC 引用ペア (要約)	論文	116,288,806
WikiAnswers 重複質問ペア	論文	77,427,422
PAQ (質問, 回答) ペア	論文	64,371,441
S2ORC 引用ペア (タイトル)	論文	52,603,982
S2ORC (タイトル, 要約)	論文	41,769,185
Stack Exchange (タイトル, 本文) ペア	-	25,316,456
Stack Exchange (タイトル + 本文, 回答) ペア	-	21,396,559
Stack Exchange (タイトル, 回答) ペア	-	21,396,559
MS MARCO トリプレット	論文	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Yahoo Answers (タイトル, 回答)	論文	1,198,260
Code Search	-	1,151,414
COCO 画像キャプション	論文	828,395
SPECTER 引用トリプレット	論文	684,100
Yahoo Answers (質問, 回答)	論文	681,164
Yahoo Answers (タイトル, 質問)	論文	659,896
SearchQA	論文	582,261
Eli5	論文	325,475
Flickr 30k	論文	317,695
Stack Exchange 重複質問 (タイトル)		304,525
AllNLI (SNLI と MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Stack Exchange 重複質問 (本文)		250,519
Stack Exchange 重複質問 (タイトル + 本文)		250,460
Sentence Compression	論文	180,000
Wikihow	論文	128,542
Altlex	論文	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	論文	102,225
Natural Questions (NQ)	論文	100,231
SQuAD2.0	論文	87,599
TriviaQA	-	73,346
合計		1,170,060,424