stackoverflow_mpnet-baseオープンソースモデル - 意味検索と文章類似度計算に無料で利用可能

ホーム

Stackoverflow Mpnet Base

flax-sentence-embeddingsによって開発

マイクロソフトのmpnet-baseモデルを基に、StackOverflowのデータで訓練された文章埋め込みモデルで、セマンティック検索と文章の類似度計算に適しています。

テキスト埋め込み

PyTorch

#StackOverflowセマンティックエンコーディング #質問と回答のペアリング最適化 #対比学習の微調整

ダウンロード数 35

リリース時間 : 3/2/2022

モデル概要

これは、マイクロソフトのmpnet-baseモデルを基に、18,562,443組のStackOverflow（タイトル、本文）のペアデータで訓練された文章埋め込みモデルで、セマンティック情報を捉えたベクトル表現を生成するために使用できます。

モデル特徴

大規模StackOverflowデータでの訓練

18,562,443組のStackOverflow（タイトル、本文）のペアデータを使用して訓練され、技術質問応答シナリオに最適化されています。

効率的なTPU訓練

7つのTPU v3 - 8アクセラレータで訓練され、Googleの技術チームのサポートを受けています。

対比学習の最適化

シアミュネットワークアーキテクチャと対比学習の目標を採用して訓練され、文章埋め込みの品質を最適化します。

モデル能力

文章埋め込みの生成

セマンティック類似度の計算

テキスト特徴抽出

セマンティック検索

テキストクラスタリング

使用事例

技術質問応答システム

StackOverflowの質問マッチング

ユーザーの質問と既存の質問の類似度をマッチングします。

質問検索の正確性を向上させます。

技術文書検索

ユーザーのクエリに基づいて関連する技術文書を検索します。

文書検索の効率を向上させます。

情報検索

セマンティック検索

キーワードマッチングではなく、セマンティックに基づく検索システムです。

より関連性の高い検索結果を提供します。

🚀 stackoverflow_mpnet-base

このモデルは、StackOverflowの18,562,443個の（タイトル、本文）ペアを使用して学習されたmicrosoft/mpnet-baseモデルです。SentenceTransformersは、与えられたデータから文埋め込みを学習および生成するための一連のモデルとフレームワークです。生成された文埋め込みは、クラスタリング、意味検索などのタスクに利用できます。

🚀 クイックスタート

このモデルは、検索エンジンの文エンコーダーとして使用することを目的としています。入力文が与えられると、文の意味情報を捉えたベクトルを出力します。この文ベクトルは、意味検索、クラスタリング、または文の類似度タスクに使用できます。

✨ 主な機能

SentenceTransformersを使用して、文埋め込みを生成できます。
生成された文埋め込みをクラスタリング、意味検索などのタスクに利用できます。
事前学習済みのmicrosoft/mpnet-baseモデルを使用し、Siamese Networkと対照学習を用いて学習されています。

📦 インストール

このモデルを使用するには、SentenceTransformersライブラリが必要です。以下のコマンドでインストールできます。

pip install sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/stackoverflow_mpnet-base')
text = "Replace me by any question / answer you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)