all_datasets_v3_MiniLM-L6オープンソース文章埋め込みモデル - 無料で高品質な文章ベクトル表現を生成

ホーム

All Datasets V3 MiniLM L6

flax-sentence-embeddingsによって開発

MiniLMアーキテクチャに基づく文埋め込みモデルで、自己教師ありコントラスティブラーニングにより10億以上の文ペアデータセットでトレーニングされ、高品質な文ベクトル表現を生成可能

テキスト埋め込み

PyTorch

英語#10億レベルの文ペアトレーニング #コントラスティブラーニング最適化 #マルチソースデータ融合

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

このモデルは、文を意味情報を含むベクトル表現にエンコードするために設計されており、情報検索、クラスタリング、文類似度計算などのタスクに適しています

モデル特徴

大規模トレーニングデータ

10億以上の多様な文ペアデータセットでトレーニングされ、Q&A、フォーラムディスカッション、画像説明など様々なテキストタイプをカバー

コントラスティブラーニング最適化

自己教師ありコントラスティブラーニング目標を採用し、モデルが意味的に類似した文と類似していない文をよりよく区別できるようにする

効率的なアーキテクチャ

MiniLMベースの6層コンパクトアーキテクチャで、性能を維持しながら推論効率を向上

モデル能力

文ベクトル化

意味的類似度計算

情報検索

テキストクラスタリング

使用事例

情報検索

ドキュメント検索

クエリ文とドキュメントをベクトルに変換し、意味に基づくドキュメント検索を実現

従来のキーワードマッチングに比べ、ユーザーの検索意図をよりよく理解できる

質問応答システム

質問マッチング

ユーザーの質問と知識ベースの質問の類似度を計算し、最も関連性の高い回答を見つける

QAシステムの精度とユーザーエクスペリエンスを向上

テキスト分析

テキストクラスタリング

類似内容のテキストを自動的にグループ化

トピック発見、ユーザーフィードバック分析などのシナリオに使用可能

🚀 フラックス文埋め込みモデル

このプロジェクトは、自己教師付きの対照学習目標を使用して、非常に大規模な文レベルのデータセットで文埋め込みモデルをトレーニングすることを目的としています。このモデルは、文の意味情報を捉えたベクトルを出力し、情報検索、クラスタリング、文の類似性タスクなどに利用できます。

🚀 クイックスタート

このモデルは文エンコーダとして使用されます。入力文が与えられると、文の意味情報を捉えたベクトルを出力します。この文ベクトルは、情報検索、クラスタリング、または文の類似性タスクに使用できます。

✨ 主な機能

大規模な文ペアデータセットでの微調整により、高品質な文埋め込みを提供します。
対照学習目標を使用して、文の類似性を効果的に捉えます。
SentenceTransformersライブラリを使用して簡単に使えます。

📦 インストール

このモデルを使用するには、SentenceTransformers ライブラリをインストールする必要があります。

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_MiniLM-L6')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 ドキュメント

モデルの説明

このプロジェクトは、自己教師付きの対照学習目標を使用して、非常に大規模な文レベルのデータセットで文埋め込みモデルをトレーニングすることを目的としています。事前学習済みの 'MiniLM-L6-H384-uncased' モデルを使用し、10億文ペアのデータセットで微調整しました。対照学習目標を使用して、与えられた文ペアの一方の文から、ランダムにサンプリングされた他の文のセットの中から、実際にペアになっている文を予測するようにモデルを訓練しました。

このモデルは、Hugging Faceによって主催された Community week using JAX/Flax for NLP & CV の間に開発されました。このモデルは、Train the Best Sentence Embedding Model Ever with 1B Training Pairs というプロジェクトの一部として開発されました。このプロジェクトを実行するために、7台のTPU v3-8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、およびCloudチームのメンバーから効率的な深層学習フレームワークに関する助言を得ました。

想定される用途

このモデルは文エンコーダとして使用されることを想定しています。入力文が与えられると、文の意味情報を捉えたベクトルを出力します。この文ベクトルは、情報検索、クラスタリング、または文の類似性タスクに使用できます。

トレーニング手順

事前学習

事前学習済みの 'MiniLM-L6-H384-uncased' モデルを使用しました。これは、'microsoft/MiniLM-L12-H384-uncased' の6層バージョンで、2層ごとに選択したものです。事前学習手順の詳細については、モデルカードを参照してください。

微調整

対照学習目標を使用してモデルを微調整しました。正式には、バッチ内のすべての可能な文ペアのコサイン類似度を計算し、真のペアと比較してクロスエントロピー損失を適用します。

ハイパーパラメータ

このモデルはTPU v3-8上でトレーニングされました。バッチサイズ1024（TPUコアあたり128）で540kステップトレーニングしました。学習率のウォームアップを500ステップ行い、シーケンス長は128トークンに制限しました。AdamWオプティマイザを使用し、学習率は2e-5でした。完全なトレーニングスクリプトは、このリポジトリで入手できます。

トレーニングデータ

複数のデータセットを連結してモデルを微調整しました。文ペアの総数は10億文を超えています。各データセットは、重み付き確率に基づいてサンプリングされ、その構成は data_config.json ファイルに詳細が記載されています。

データセット	論文	トレーニングタプルの数
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	論文	317,695
[COCO 2020](COCO 2020)	論文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	論文	87,599
Natural Questions (NQ)	論文	100,231
Simple Wikipedia	論文	102,225
Quora Question Pairs	-	103,663
Altlex	論文	112,696
Wikihow	論文	128,542
Sentence Compression	論文	180,000
AllNLI (SNLI and MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Eli5	論文	325,475
SPECTER	論文	684,100
S2ORC Title/Abstract	論文	41,769,185
S2ORC Citation/Citation	論文	52,603,982
S2ORC Citation/Abstract	論文	116,288,806
PAQ	論文	64,371,441
WikiAnswers	論文	77,427,422
SearchQA	-	582,261
Yahoo Answers Title/Answer	論文	1,198,260
Yahoo Answers Title/Question	論文	659,896
Yahoo Answers Question/Answer	論文	681,164
MS MARCO	論文	9,144,553
Reddit conversationnal	論文	726,484,430
合計		1,097,953,922