GLuCoSE-base-jaオープンソースの日本語テキスト埋め込みモデル - 文の類似度や意味検索に無料で利用可能

ホーム

Glucose Base Ja

pkshatechによって開発

GLuCoSEはLUKEをベースにした日本語テキスト埋め込みモデルで、文の類似度や意味検索タスクに適しています。

テキスト埋め込み

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語テキスト埋め込み #意味検索最適化 #マルチタスク訓練

ダウンロード数 70.71k

リリース時間 : 7/16/2023

モデル概要

GLuCoSEは汎用的でユーザーフレンドリーな日本語テキスト埋め込みモデルで、ウェブデータと複数の自然言語推論および検索関連データセットを混合訓練して構築されました。

モデル特徴

マルチタスク訓練

ウェブデータと複数の自然言語推論および検索関連データセットで混合訓練を行い、モデルの汎用性を強化しました。

高次元出力

出力次元は768で、豊富な意味情報を捉えることができます。

長文対応

最大512トークンをサポートし、長い日本語テキストの処理に適しています。

平均プーリング

平均プーリング方式で文埋め込みを生成し、文表現の安定性を向上させました。

モデル能力

文ベクトル類似度計算

意味検索

日本語テキスト特徴抽出

使用事例

情報検索

ドキュメント検索

意味的類似度を使用してドキュメントライブラリから関連コンテンツを検索

AIO3開発セットでTop-1精度が36.1%を達成

自然言語処理

文類似度計算

2つの日本語の文間の意味的類似度を計算

JSTS開発セットでスピアマン相関係数0.864を達成

🚀 GLuCoSE (General Luke-based Contrastive Sentence Embedding)-base-Japanese

GLuCoSE（General LUke-based COntrastive Sentence Embedding、「グルコース」）は、LUKEに基づく日本語のテキスト埋め込みモデルです。汎用的で使いやすい日本語テキスト埋め込みモデルを作成するために、GLuCoSEはウェブデータと自然言語推論や検索に関連するさまざまなデータセットを組み合わせて学習されています。このモデルは、文ベクトルの類似度タスクだけでなく、意味検索タスクにも適しています。

最大トークン数: 512
出力次元: 768
プーリング: 平均プーリング
サポート言語: 日本語

🚀 クイックスタート

このモデルは、sentence-transformersを使って簡単に利用できます。

インストール

まず、以下のコマンドでsentence-transformersをpipでインストールします。

pip install -U sentence-transformers

使用例

以下のように、モデルをロードして文を密ベクトルに変換することができます。

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = [
    "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
    "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
    "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
]

model = SentenceTransformer('pkshatech/GLuCoSE-base-ja')
embeddings = model.encode(sentences)
print(embeddings)

学習時に使用される損失関数はコサイン類似度なので、下流タスクでもコサイン類似度を使用することをおすすめします。

このテキスト埋め込みモデルは、LangChainでも使用できます。詳細はこのページを参照してください。

🔧 技術詳細

使用されたリソース

このモデルの学習には、以下のリソースが使用されています。

事前学習モデル

studio-ousia/luke-japanese-base-lite

データセット

mC4
MQA
JNLI
JSNLI
PAWS-X
JSeM
MoritzLaurer/multilingual-NLI-26lang-2mil7
- MultiNLI
- WANLI
- FeverNLI
- LingNLI
JSICK
Mr.Tidy
JSTS (検証に使用) ^1

ベンチマーク

意味的類似度計算 (JSTS 開発セット)

スピアマンの相関係数とピアソンの相関係数による評価です。

モデル	スピアマン	ピアソン
text-embedding-ada-002	0.837^2	0.790^2
pkshatech/simcse-ja-bert-base-clcmlp ^3	0.850	0.801
pkshatech/GLuCoSE-base-ja	0.864	0.818

ゼロショット検索 (AIO3 開発セット)

トップk検索精度[^4]（トップkの検索結果に正解が少なくとも1回含まれる質問の割合）による評価です。

モデル	トップ1	トップ5	トップ10	トップ50
text-embedding-ada-002	33.50	57.80	65.10	76.60
pkshatech/simcse-ja-bert-base-clcmlp ^3	30.60	54.50	62.50	76.70
pkshatech/GLuCoSE-base-ja	36.10	59.40	66.40	78.30