all-mpnet-base-v2オープンソース文埋め込みモデル - 無料でデプロイして意味検索と類似度分析をサポート

ホーム

All Mpnet Base V2

navtecaによって開発

これはMPNetアーキテクチャに基づく文埋め込みモデルで、テキストを768次元ベクトル空間にマッピングでき、意味検索や文類似度タスクに適しています。

テキスト埋め込み

PyTorch

英語オープンソースライセンス:MIT #意味検索 #文埋め込み #対照学習

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

このモデルは自己教師あり対照学習により10億以上の文ペアデータセットで訓練され、文や段落を密なベクトル表現に変換でき、クラスタリング、意味検索などのNLPタスクをサポートします。

モデル特徴

大規模訓練データ

10億以上の文ペアを使用して訓練され、多様なテキストタイプと分野をカバー

効率的な意味符号化

文や段落を768次元密ベクトルに変換し、意味情報を効果的に捕捉

対照学習最適化

対照学習目標を用いて微調整し、文類似度判断の精度を向上

TPU最適化訓練

7つのTPU v3-8で効率的に訓練され、Flax/JAXフレームワークの加速効果を享受

モデル能力

文ベクトル化

意味類似度計算

情報検索

テキストクラスタリング

特徴抽出

使用事例

情報検索

ドキュメント検索

クエリとドキュメントをベクトルに変換し、意味に基づくドキュメント検索を実現

キーワード検索に比べてクエリ意図をより良く理解可能

テキスト分析

文類似度計算

2つの文間の意味的類似度を計算

QAシステム、重複質問検出などのシナリオに利用可能

テキストクラスタリング

類似内容のテキストを自動的にグループ化

トピックモデリング、ユーザーフィードバック分析などに利用可能

🚀 All MPNet base model (v2) for Semantic Search

このモデルはsentence-transformersのモデルです。文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

🚀 クイックスタート

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに使用できる。

📦 インストール

sentence-transformersをインストールすると、このモデルの使用が簡単になります。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください: https://seb.sbert.net

背景

このプロジェクトの目的は、自己教師付きの対照学習目標を使用して、非常に大規模な文章レベルのデータセットで文章埋め込みモデルを学習させることです。事前学習済みのmicrosoft/mpnet-baseモデルを使用し、10億以上の文章ペアのデータセットで微調整しました。対照学習目標を使用しており、ペアからの文章が与えられた場合、モデルはランダムにサンプリングされた他の文章のセットの中から、実際にデータセットでペアになっている文章を予測する必要があります。

このモデルは、Hugging Faceによって主催されたCommunity week using JAX/Flax for NLP & CVの間に開発されました。このモデルは、Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発されました。このプロジェクトを実行するために、7台のTPU v3-8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、およびCloudチームのメンバーから効率的な深層学習フレームワークに関する助言を得ました。

想定される用途

このモデルは、文章および短い段落のエンコーダーとして使用することを想定しています。入力テキストが与えられると、意味情報を捉えたベクトルを出力します。文章ベクトルは、情報検索、クラスタリング、または文章類似度タスクに使用できます。

デフォルトでは、384単語片より長い入力テキストは切り捨てられます。

学習手順

事前学習

事前学習済みのmicrosoft/mpnet-baseモデルを使用しています。事前学習手順の詳細については、モデルカードを参照してください。

微調整

対照目標を使用してモデルを微調整します。正式には、バッチ内のすべての可能な文章ペアからコサイン類似度を計算します。その後、真のペアと比較することでクロスエントロピー損失を適用します。

ハイパーパラメータ

モデルはTPU v3-8で学習しました。バッチサイズ1024（TPUコアあたり128）で100kステップ学習しました。学習率のウォームアップには500を使用しました。シーケンス長は128トークンに制限されています。学習率2e-5のAdamWオプティマイザを使用しました。

学習データ

複数のデータセットを連結してモデルを微調整しました。文章ペアの総数は10億以上です。各データセットは重み付き確率に基づいてサンプリングされ、その設定はdata_config.jsonファイルに詳細が記載されています。

データセット	論文	学習タプルの数
Reddit comments (2015-2018)	論文	726,484,430
S2ORC 引用ペア (要約)	論文	116,288,806
WikiAnswers 重複質問ペア	論文	77,427,422
PAQ (質問, 回答) ペア	論文	64,371,441
S2ORC 引用ペア (タイトル)	論文	52,603,982
S2ORC (タイトル, 要約)	論文	41,769,185
Stack Exchange (タイトル, 本文) ペア	-	25,316,456
Stack Exchange (タイトル+本文, 回答) ペア	-	21,396,559
Stack Exchange (タイトル, 回答) ペア	-	21,396,559
MS MARCO トリプレット	論文	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Yahoo Answers (タイトル, 回答)	論文	1,198,260
Code Search	-	1,151,414
COCO 画像キャプション	論文	828,395
SPECTER 引用トリプレット	論文	684,100
Yahoo Answers (質問, 回答)	論文	681,164
Yahoo Answers (タイトル, 質問)	論文	659,896
SearchQA	論文	582,261
Eli5	論文	325,475
Flickr 30k	論文	317,695
Stack Exchange 重複質問 (タイトル)		304,525
AllNLI (SNLI および MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Stack Exchange 重複質問 (本文)		250,519
Stack Exchange 重複質問 (タイトル+本文)		250,460
Sentence Compression	論文	180,000
Wikihow	論文	128,542
Altlex	論文	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	論文	102,225
Natural Questions (NQ)	論文	100,231
SQuAD2.0	論文	87,599
TriviaQA	-	73,346
合計		1,170,060,424