all-MiniLM-L6-v2-128dimオープンソース文埋め込みモデル - セマンティック検索と類似度計算を実現

ホーム

All MiniLM L6 V2 128dim

freedomfrierによって開発

これはMiniLMアーキテクチャに基づく文埋め込みモデルで、テキストを384次元のベクトル空間にマッピングし、意味検索や文類似度計算などのタスクに適しています。

テキスト埋め込み

PyTorch

英語オープンソースライセンス:Apache-2.0 #文埋め込み #意味検索 #複数データセット訓練

ダウンロード数 1,377

リリース時間 : 12/21/2022

モデル概要

このモデルは文変換器で、文や段落を384次元の密なベクトル表現に変換でき、クラスタリング、意味検索などの自然言語処理タスクに適しています。

モデル特徴

効率的なベクトル表現

テキストを384次元のコンパクトなベクトル表現に変換し、計算効率と意味表現能力のバランスを取っています。

大規模訓練

10億以上の文ペアのデータセットで訓練されており、様々な分野やタスクをカバーしています。

対照学習

対照学習目標を用いて微調整され、文ペアの意味類似度計算能力を最適化しています。

モデル能力

文埋め込み

意味類似度計算

情報検索

テキストクラスタリング

質問応答システムサポート

使用事例

情報検索

ドキュメント検索

クエリとドキュメントをベクトルに変換し、類似度計算を通じて効率的な検索を実現します。

検索の関連性と効率を向上

質問応答システム

質問回答マッチング

質問と候補回答間の意味類似度を計算します。

質問応答システムの精度向上

テキスト分析

テキストクラスタリング

類似内容のドキュメントを自動的にグループ化します。

教師なしのドキュメント整理を実現

🚀 all-MiniLM-L6-v2

このモデルはsentence-transformersを使用したもので、文章や段落を384次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

🚀 クイックスタート

✨ 主な機能

文章や段落を384次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに使用できる。

📦 インストール

sentence-transformersをインストールすると、このモデルの使用が簡単になります。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使用せずに、以下のようにモデルを使用できます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください。https://seb.sbert.net

背景

このプロジェクトの目的は、自己教師付きの対照学習目標を使用して、非常に大規模な文章レベルのデータセットで文章埋め込みモデルを学習することです。事前学習済みのnreimers/MiniLM-L6-H384-uncasedモデルを使用し、10億の文章ペアデータセットでファインチューニングを行いました。対照学習目標を使用しており、ペアからの文章が与えられた場合、モデルはランダムにサンプリングされた他の文章のセットの中から、実際にデータセットでその文章とペアになっているものを予測する必要があります。

このモデルは、Hugging Faceが主催するCommunity week using JAX/Flax for NLP & CVの間に開発されました。Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発され、7つのTPU v3-8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、およびCloudチームのメンバーから効率的なディープラーニングフレームワークに関する助言を得ました。

想定される用途

このモデルは、文章および短い段落のエンコーダとして使用することを想定しています。入力テキストが与えられると、意味情報を捉えたベクトルを出力します。文章ベクトルは、情報検索、クラスタリング、または文章類似性タスクに使用できます。

デフォルトでは、256語片より長い入力テキストは切り捨てられます。

🔧 技術詳細

学習手順

事前学習

事前学習済みのnreimers/MiniLM-L6-H384-uncasedモデルを使用しています。事前学習手順の詳細については、モデルカードを参照してください。

ファインチューニング

対照的な目標を使用してモデルをファインチューニングしています。正式には、バッチ内のすべての可能な文章ペアからコサイン類似度を計算し、真のペアと比較して交差エントロピー損失を適用します。

ハイパーパラメータ

モデルはTPU v3-8で10万ステップ学習させ、バッチサイズは1024（TPUコアあたり128）を使用しました。学習率のウォームアップは500ステップ行い、シーケンス長は128トークンに制限しました。AdamWオプティマイザを使用し、学習率は2e-5としました。完全な学習スクリプトは、このリポジトリのtrain_script.pyで入手できます。

学習データ

複数のデータセットを連結してモデルをファインチューニングしています。文章ペアの総数は10億を超えています。各データセットは、data_config.jsonファイルで詳細に設定された重み付き確率に基づいてサンプリングされます。

データセット	論文	学習タプルの数
Reddit comments (2015-2018)	論文	726,484,430
S2ORC 引用ペア (要約)	論文	116,288,806
WikiAnswers 重複質問ペア	論文	77,427,422
PAQ (質問, 回答) ペア	論文	64,371,441
S2ORC 引用ペア (タイトル)	論文	52,603,982
S2ORC (タイトル, 要約)	論文	41,769,185
Stack Exchange (タイトル, 本文) ペア	-	25,316,456
Stack Exchange (タイトル+本文, 回答) ペア	-	21,396,559
Stack Exchange (タイトル, 回答) ペア	-	21,396,559
MS MARCO トリプレット	論文	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Yahoo Answers (タイトル, 回答)	論文	1,198,260
Code Search	-	1,151,414
COCO 画像キャプション	論文	828,395
SPECTER 引用トリプレット	論文	684,100
Yahoo Answers (質問, 回答)	論文	681,164
Yahoo Answers (タイトル, 質問)	論文	659,896
SearchQA	論文	582,261
Eli5	論文	325,475
Flickr 30k	論文	317,695
Stack Exchange 重複質問 (タイトル)	-	304,525
AllNLI (SNLI と MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Stack Exchange 重複質問 (本文)	-	250,519
Stack Exchange 重複質問 (タイトル+本文)	-	250,460
Sentence Compression	論文	180,000
Wikihow	論文	128,542
Altlex	論文	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	論文	102,225
Natural Questions (NQ)	論文	100,231
SQuAD2.0	論文	87,599
TriviaQA	-	73,346
合計	-	1,170,060,424