all_datasets_v4_MiniLM-L12オープンソースモデル - 高品質な意味ベクトル表現を無料で生成

ホーム

All Datasets V4 MiniLM L12

flax-sentence-embeddingsによって開発

MiniLM-L12モデルをベースに、自己教師付き対比学習を通じて超10億の文ペアデータセットで微調整された文エンベディングモデルで、高品質の意味ベクトル表現を生成できます。

テキスト埋め込み

PyTorch

英語#10億レベルの文ペア訓練 #対比学習の最適化 #多ソースデータ融合

ダウンロード数 2,084

リリース時間 : 3/2/2022

モデル概要

このモデルは文レベルの意味理解用に設計されたエンコーダで、入力テキストを意味情報を含むベクトル表現に変換でき、情報検索、クラスタリング、類似度計算などのタスクに適しています。

モデル特徴

大規模対比学習訓練

10億を超える文ペアの多様なデータセットで対比学習を微調整することで、モデルに強力な意味理解能力を備えさせます。

効率的な軽量アーキテクチャ

MiniLM-L12アーキテクチャをベースに、高い性能を維持しながら低い計算リソース要件を持っています。

多ソースデータ融合

質問応答システム、画像説明、科学文献など20以上の異なる分野の訓練データを統合しています。

モデル能力

テキストベクトル化

意味類似度計算

情報検索

テキストクラスタリング

特徴抽出

使用事例

情報検索

文書検索システム

クエリ文と文書ライブラリをベクトル表現に変換し、意味に基づく文書検索を実現します。

従来のキーワードマッチングと比較して、ユーザーのクエリ意図をよりよく理解できます。

質問応答システム

質問応答ペアのマッチング

ユーザーの質問と知識ベース内の質問の類似度を計算し、最適な回答を迅速に見つけます。

質問応答システムの精度と応答速度を向上させます。

コンテンツ推薦

類似コンテンツ推薦

コンテンツの意味類似度に基づいてユーザーに関連する記事や製品を推薦します。

推薦システムの関連性とユーザー体験を向上させます。

🚀 文書埋め込みモデル

このプロジェクトは、自己教師付きの対照学習を用いて、非常に大規模な文レベルのデータセットで文埋め込みモデルを学習することを目的としています。事前学習済みの'MiniLM-L12'モデルを使用し、10億文ペアのデータセットで微調整を行いました。対照学習の目的は、ペアからの文が与えられたときに、モデルがランダムにサンプリングされた他の文のセットの中から、実際にデータセットでペアになっている文を予測することです。

このモデルは、Hugging Faceによって主催されたCommunity week using JAX/Flax for NLP & CVの間に開発されました。このモデルは、Train the Best Sentence Embedding Model Ever with 1B Training Pairsというプロジェクトの一環として開発されました。このプロジェクトを実行するために、7台のTPU v3-8という効率的なハードウェアインフラストラクチャを利用し、GoogleのFlax、JAX、およびCloudチームのメンバーから、効率的な深層学習フレームワークに関する助言を得ました。

✨ 主な機能

文エンコーダとして使用でき、入力文に対して文の意味情報を捉えたベクトルを出力します。
この文ベクトルは、情報検索、クラスタリング、文の類似度タスクに使用できます。

📦 インストール

このモデルを使用するには、SentenceTransformersライブラリをインストールする必要があります。

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v4_MiniLM-L12')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 詳細ドキュメント

学習手順

事前学習

事前学習済みの'MiniLM-L12'を使用しています。事前学習手順の詳細については、モデルカードを参照してください。

微調整

対照学習の目的を使用してモデルを微調整します。正式には、バッチ内のすべての可能な文ペアからコサイン類似度を計算します。その後、真のペアと比較してクロスエントロピー損失を適用します。

ハイパーパラメータ

モデルはTPU v3-8で学習しました。
バッチサイズ1024（TPUコアあたり128）で540kステップ学習しました。
学習率のウォームアップは500ステップで行いました。
シーケンス長は128トークンに制限しました。
AdamWオプティマイザを使用し、学習率は2e-5です。
完全な学習スクリプトは、現在のリポジトリでアクセス可能です。

学習データ

複数のデータセットを連結してモデルを微調整しました。文ペアの総数は10億文を超えています。各データセットは、data_config.jsonファイルに詳細が記載されている重み付き確率に基づいてサンプリングされました。

データセット	論文	学習タプル数
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	論文	317,695
[COCO 2020](COCO 2020)	論文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	論文	87,599
Natural Questions (NQ)	論文	100,231
Simple Wikipedia	論文	102,225
Quora Question Pairs	-	103,663
Altlex	論文	112,696
Wikihow	論文	128,542
Sentence Compression	論文	180,000
AllNLI (SNLI and MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Eli5	論文	325,475
SPECTER	論文	684,100
S2ORC Title/Abstract	論文	41,769,185
S2ORC Citation/Citation	論文	52,603,982
S2ORC Citation/Abstract	論文	116,288,806
PAQ	論文	64,371,441
WikiAnswers	論文	77,427,422
SearchQA	-	582,261
Yahoo Answers Title/Answer	論文	1,198,260
Yahoo Answers Title/Question	論文	659,896
Yahoo Answers Question/Answer	論文	681,164
MS MARCO	論文	9,144,553
Reddit conversationnal	論文	726,484,430
合計		1,097,953,922