all-mpnet-base-v2オープンソース文埋め込みモデル - 意味検索やテキスト類似度タスクに無料で使用可能

ホーム

All Mpnet Base V2

diptanucによって開発

MPNetアーキテクチャに基づく文埋め込みモデルで、テキストを768次元のベクトル空間にマッピングし、意味検索やテキスト類似度タスクに適しています

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #文埋め込み #意味検索 #対照学習

ダウンロード数 138

リリース時間 : 4/23/2023

モデル概要

このモデルは文変換器で、文や段落を密なベクトル表現に変換でき、クラスタリング、意味検索などの自然言語処理タスクに適しています。

モデル特徴

高品質な文埋め込み

10億以上の文ペアで訓練され、高品質な文ベクトル表現を生成

対照学習トレーニング

対照学習目標を採用し、類似文をベクトル空間でより近づける

複数データセット融合

20以上の異なるソースのデータセットを融合して訓練し、モデルの汎化能力を強化

モデル能力

文ベクトル化

意味的類似度計算

テキストクラスタリング

情報検索

質問応答システムサポート

使用事例

情報検索

意味検索

クエリとドキュメントをベクトルに変換し、キーワードではなく意味に基づく検索を実現

検索結果の関連性向上

テキスト分析

ドキュメントクラスタリング

類似ドキュメントをグループ化し、トピックモデリングやコンテンツ整理に使用

ドキュメントコレクション内のトピック構造を自動発見

質問応答システム

質問マッチング

ユーザーの質問とナレッジベース内の既存質問の意味的類似度を識別

質問応答システムの精度向上

🚀 all-mpnet-base-v2

このモデルはsentence-transformersを用いたもので、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに利用できます。

🚀 クイックスタート

📦 インストール

sentence-transformersをインストールすると、このモデルの使用が簡単になります。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使用せずに、このモデルを使用することもできます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください。https://seb.sbert.net

背景

このプロジェクトは、自己教師付きの対照学習目標を使用して、非常に大規模な文章レベルのデータセットで文章埋め込みモデルを学習させることを目的としています。事前学習済みのmicrosoft/mpnet-baseモデルを使用し、10億の文章ペアデータセットで微調整を行いました。対照学習目標を使用しており、ペアからの文章が与えられた場合、モデルはランダムにサンプリングされた他の文章のセットの中から、実際にデータセットでペアになっている文章を予測する必要があります。

このモデルは、Hugging Faceによって主催されたCommunity week using JAX/Flax for NLP & CVの間に開発されました。このモデルは、Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発されました。このプロジェクトを実行するために、7つのTPU v3 - 8という効率的なハードウェアインフラストラクチャを利用するとともに、GoogleのFlax、JAX、およびCloudチームのメンバーから、効率的な深層学習フレームワークに関する助言を得ました。

想定される用途

このモデルは、文章および短い段落のエンコーダとして使用することを想定しています。入力テキストが与えられると、意味情報を捉えたベクトルを出力します。この文章ベクトルは、情報検索、クラスタリング、または文章の類似度タスクに使用することができます。

デフォルトでは、384語片より長い入力テキストは切り捨てられます。

学習手順

事前学習

事前学習済みのmicrosoft/mpnet-baseモデルを使用しています。事前学習手順の詳細については、モデルカードを参照してください。

微調整

対照学習目標を使用してモデルを微調整します。正式には、バッチ内のすべての可能な文章ペアからコサイン類似度を計算し、真のペアと比較することで交差エントロピー損失を適用します。

ハイパーパラメータ

このモデルはTPU v3 - 8で学習させました。バッチサイズ1024（TPUコアあたり128）で100kステップ学習させました。学習率のウォームアップを500ステップ行い、シーケンス長は128トークンに制限しました。AdamWオプティマイザを使用し、学習率は2e - 5としました。完全な学習スクリプトは、現在のリポジトリのtrain_script.pyで入手できます。

学習データ

複数のデータセットを結合してモデルを微調整しました。文章ペアの総数は10億を超えています。各データセットは、data_config.jsonファイルで詳細に設定された重み付き確率に基づいてサンプリングされました。

データセット	論文	学習タプル数
Reddit comments (2015 - 2018)	paper	726,484,430
S2ORC Citation pairs (Abstracts)	paper	116,288,806
WikiAnswers Duplicate question pairs	paper	77,427,422
PAQ (Question, Answer) pairs	paper	64,371,441
S2ORC Citation pairs (Titles)	paper	52,603,982
S2ORC (Title, Abstract)	paper	41,769,185
Stack Exchange (Title, Body) pairs	-	25,316,456
Stack Exchange (Title+Body, Answer) pairs	-	21,396,559
Stack Exchange (Title, Answer) pairs	-	21,396,559
MS MARCO triplets	paper	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	paper	3,012,496
Yahoo Answers (Title, Answer)	paper	1,198,260
Code Search	-	1,151,414
COCO Image captions	paper	828,395
SPECTER citation triplets	paper	684,100
Yahoo Answers (Question, Answer)	paper	681,164
Yahoo Answers (Title, Question)	paper	659,896
SearchQA	paper	582,261
Eli5	paper	325,475
Flickr 30k	paper	317,695
Stack Exchange Duplicate questions (titles)		304,525
AllNLI (SNLI and MultiNLI	paper SNLI, paper MultiNLI	277,230
Stack Exchange Duplicate questions (bodies)		250,519
Stack Exchange Duplicate questions (titles+bodies)		250,460
Sentence Compression	paper	180,000
Wikihow	paper	128,542
Altlex	paper	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	paper	102,225
Natural Questions (NQ)	paper	100,231
SQuAD2.0	paper	87,599
TriviaQA	-	73,346
合計		1,170,060,424