multi-qa-mpnet-base-dot-v1オープンソース意味検索モデル - 文章や段落の精度の高いマッピングを無料で実現

ホーム

Multi Qa Mpnet Base Dot V1

model-embeddingsによって開発

これはsentence-transformersベースの意味検索モデルで、文や段落を768次元の密ベクトル空間にマッピングできます。

テキスト埋め込み

PyTorch

#意味検索最適化 #質問回答ペア埋め込み #密ベクトル検索

ダウンロード数 772

リリース時間 : 7/23/2023

モデル概要

このモデルは意味検索のために特別に設計されており、2億1500万の（質問、回答）ペアでトレーニングされており、QAや文書検索タスクに適しています。

モデル特徴

大規模トレーニングデータ

モデルは2億1500万の（質問、回答）ペアでトレーニングされており、複数のデータソースをカバーしています。

効率的な意味検索

意味検索に最適化されており、クエリと関連文書を迅速にマッチングできます。

CLSプーリング

CLSプーリング手法を使用して文埋め込みを生成し、内積類似度計算に適しています。

モデル能力

文埋め込み生成

意味類似度計算

質問回答マッチング

文書検索

使用事例

情報検索

質問応答システム

ユーザーの質問と事前に保存された回答データベースの中から最適な回答をマッチングするために使用されます。

質問の意味に最も関連性の高い回答を正確に見つけることができます。

文書検索

大量の文書の中からクエリに最も関連性の高い文書を迅速に見つけます。

検索効率と精度を向上させます。

コンテンツ推薦

🚀 multi-qa-mpnet-base-dot-v1

このモデルはsentence-transformersを用いたもので、文章や段落を768次元の密ベクトル空間にマッピングし、意味検索に特化して設計されています。多様なソースから収集した約2億1500万個の（質問、回答）ペアを用いて学習されています。意味検索の詳細については、SBERT.net - Semantic Searchを参照してください。

🚀 クイックスタート

🔧 必要なライブラリのインストール

このモデルを使用するには、sentence-transformersをインストールする必要があります。以下のコマンドを実行してインストールしてください。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer, util

query = "How many people live in London?"
docs = ["Around 9 Million people live in London", "London is known for its financial district"]

#Load the model
model = SentenceTransformer('sentence-transformers/multi-qa-mpnet-base-dot-v1')

#Encode query and documents
query_emb = model.encode(query)
doc_emb = model.encode(docs)

#Compute dot score between query and all document embeddings
scores = util.dot_score(query_emb, doc_emb)[0].cpu().tolist()

#Combine docs & scores
doc_score_pairs = list(zip(docs, scores))

#Sort by decreasing score
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)

#Output passages & scores
for doc, score in doc_score_pairs:
    print(score, doc)

高度な使用法

sentence-transformersを使用せずにモデルを利用することもできます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して正しいプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch

#CLS Pooling - Take output from first token
def cls_pooling(model_output):
    return model_output.last_hidden_state[:,0]

#Encode text
def encode(texts):
    # Tokenize sentences
    encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')

    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input, return_dict=True)

    # Perform pooling
    embeddings = cls_pooling(model_output)

    return embeddings


# Sentences we want sentence embeddings for
query = "How many people live in London?"
docs = ["Around 9 Million people live in London", "London is known for its financial district"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/multi-qa-mpnet-base-dot-v1")
model = AutoModel.from_pretrained("sentence-transformers/multi-qa-mpnet-base-dot-v1")

#Encode query and docs
query_emb = encode(query)
doc_emb = encode(docs)

#Compute dot score between query and all document embeddings
scores = torch.mm(query_emb, doc_emb.transpose(0, 1))[0].cpu().tolist()

#Combine docs & scores
doc_score_pairs = list(zip(docs, scores))

#Sort by decreasing score
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)

#Output passages & scores
for doc, score in doc_score_pairs:
    print(score, doc)

🔧 技術詳細

属性	詳情
次元数	768
正規化された埋め込みを生成するか	いいえ
プーリング方法	CLSプーリング
適切なスコア関数	ドット積（例：`util.dot_score`）

📚 背景

このプロジェクトは、自己教師付きの対照学習目標を用いて、非常に大規模な文章レベルのデータセットで文章埋め込みモデルを学習することを目的としています。対照学習目標を使用しており、与えられた文章から、ランダムにサンプリングされた他の文章のセットの中から、実際にデータセットでペアになっている文章を予測するようにモデルを訓練します。

このモデルは、Hugging Faceが主催するCommunity week using JAX/Flax for NLP & CVの期間中に開発されました。Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発され、7台のTPU v3 - 8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、およびCloudチームのメンバーからの支援を受けて、効率的な深層学習フレームワークを使用して開発されました。

📋 想定される用途

このモデルは、意味検索に使用することを想定しています。クエリ/質問と文章段落を密ベクトル空間にエンコードし、与えられた文章に関連するドキュメントを見つけます。

ただし、単語ピースの上限は512です。それより長いテキストは切り捨てられます。また、このモデルは最大250単語ピースの入力テキストで学習されているため、より長いテキストに対してはうまく機能しない可能性があります。

📈 学習手順

完全な学習スクリプトは、現在のリポジトリのtrain_script.pyにあります。

事前学習

事前学習済みのmpnet-baseモデルを使用しています。事前学習手順の詳細については、モデルカードを参照してください。

ファインチューニング

複数のデータセットを連結してモデルをファインチューニングしています。合計で約2億1500万個の（質問、回答）ペアを使用しています。各データセットは、data_config.jsonファイルに詳細が記載されている重み付き確率に基づいてサンプリングされます。

モデルは、CLSプーリング、ドット積を類似度関数として、スケールを1として、MultipleNegativesRankingLossを使用して学習されました。

データセット	学習タプルの数
WikiAnswersの重複質問ペア	77,427,422
PAQの自動生成（質問、段落）ペア	64,371,441
Stack Exchangeの（タイトル、本文）ペア	25,316,456
Stack Exchangeの（タイトル、回答）ペア	21,396,559
MS MARCOのトリプレット（クエリ、回答、ハードネガティブ）	17,579,773
GOOAQ: Open Question Answering with Diverse Answer Typesの（クエリ、回答）ペア	3,012,496
Amazon-QAの（質問、回答）ペア	2,448,839
Yahoo Answersの（タイトル、回答）ペア	1,198,260
Yahoo Answersの（質問、回答）ペア	681,164
Yahoo Answersの（タイトル、質問）ペア	659,896
SearchQAの（質問、回答）ペア	582,261
ELI5の（質問、回答）ペア	325,475
Stack Exchangeの重複質問ペア（タイトル）	304,525
Quora Question Tripletsのトリプレット（質問、重複質問、ハードネガティブ）	103,663
Natural Questions (NQ)の（質問、段落）ペア	100,231
SQuAD2.0の（質問、段落）ペア	87,599
TriviaQAの（質問、証拠）ペア	73,346
合計	214,988,242