GLuCoSE-base-ja-v2オープンソースの日本语文本埋め込みモデル、無料でデプロイ可能、検索タスクではCPUでの実行が良好！

Home

Glucose Base Ja V2

Developed by pkshatech

汎用日本語テキスト埋め込みモデル、検索タスクに最適化され、CPU上で優れた性能を発揮

テキスト埋め込み

Safetensors

JapaneseOpen Source License:Apache-2.0 #日本語意味検索 #対照学習最適化 #軽量埋め込み

Downloads 25.25k

Release Time : 8/22/2024

Model Overview

日本語テキスト処理に特化した汎用埋め込みモデルで、特に検索タスクと文類似度計算に優れており、クエリベースの段落検索システムとして使用可能

Model Features

検索タスク最適化

MIRACLなどの検索タスクで同サイズモデル中最も高い性能を発揮

日本語専用最適化

日本語テキスト処理に特化して最適化訓練

軽量高效

CPU実行をサポートし、リソース制限環境に適している

多段階訓練

統合蒸留と多段階対照学習による微調整

Model Capabilities

文類似度計算

意味検索

特徴抽出

段落検索

Use Cases

情報検索

企業ナレッジベース検索

企業内部ナレッジベースの意味検索システム

MIRACL-jaデータセットで85.5のRecall@5を達成

質問応答システム

検索ベースの質問応答システム構築

JQaRAデータセットで60.6のnDCG@10を達成

テキスト分析

テキストクラスタリング

日本語テキストの意味クラスタリング分析

意味類似度計算

文間の意味類似度を計算

🚀 GLuCoSE v2

このモデルは、一般的な日本語テキスト埋め込みモデルで、検索タスクに特化しています。CPUで実行可能で、文間の意味的類似度を測定したり、クエリに基づいてパッセージを検索するための検索システムとして機能します。

✨ 主な機能

検索タスクに特化しており、MIRACLなどのタスクで同サイズのモデルの中で最高の性能を発揮します。
日本語テキスト処理に最適化されています。
CPUで実行可能です。

推論時には、「query: 」または「passage: 」の接頭辞が必要です。詳細は「使用方法」セクションをご確認ください。

📚 ドキュメント

モデルの説明

このモデルはGLuCoSEをベースに、いくつかの大規模埋め込みモデルを用いた蒸留と多段階の対照学習によって微調整されています。

最大シーケンス長: 512トークン
出力次元数: 768トークン
類似度関数: コサイン類似度

💻 使用例

基本的な使用法

SentenceTransformerを使用して以下のコードで推論を実行できます。

from sentence_transformers import SentenceTransformer
import torch.nn.functional as F

# Download from the 🤗 Hub
model = SentenceTransformer("pkshatech/GLuCoSE-base-ja-v2")

# Each input text should start with "query: " or "passage: ".
# For tasks other than retrieval, you can simply use the "query: " prefix.
sentences = [
    'query: PKSHAはどんな会社ですか？',
    'passage: 研究開発したアルゴリズムを、多くの企業のソフトウエア・オペレーションに導入しています。',
    'query: 日本で一番高い山は？',
    'passage: 富士山（ふじさん）は、標高3776.12 m、日本最高峰（剣ヶ峰）の独立峰で、その優美な風貌は日本国外でも日本の象徴として広く知られている。',
]
embeddings = model.encode(sentences,convert_to_tensor=True)
print(embeddings.shape)
# [4, 768]

# Get the similarity scores for the embeddings
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.6050, 0.4341, 0.5537],
# [0.6050, 1.0000, 0.5018, 0.6815],
# [0.4341, 0.5018, 1.0000, 0.7534],
# [0.5537, 0.6815, 0.7534, 1.0000]]

高度な使用法

Transformersを使用して以下のコードで推論を実行できます。

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def mean_pooling(last_hidden_states: Tensor,attention_mask: Tensor) -> Tensor:
    emb = last_hidden_states * attention_mask.unsqueeze(-1)
    emb = emb.sum(dim=1) / attention_mask.sum(dim=1).unsqueeze(-1)
    return emb

# Download from the 🤗 Hub
tokenizer = AutoTokenizer.from_pretrained("pkshatech/GLuCoSE-base-ja-v2")
model = AutoModel.from_pretrained("pkshatech/GLuCoSE-base-ja-v2")

# Each input text should start with "query: " or "passage: ".
# For tasks other than retrieval, you can simply use the "query: " prefix.
sentences = [
    'query: PKSHAはどんな会社ですか？',
    'passage: 研究開発したアルゴリズムを、多くの企業のソフトウエア・オペレーションに導入しています。',
    'query: 日本で一番高い山は？',
    'passage: 富士山（ふじさん）は、標高3776.12 m、日本最高峰（剣ヶ峰）の独立峰で、その優美な風貌は日本国外でも日本の象徴として広く知られている。',
]

# Tokenize the input texts
batch_dict = tokenizer(sentences, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = mean_pooling(outputs.last_hidden_state, batch_dict['attention_mask'])
print(embeddings.shape)
# [4, 768]

# Get the similarity scores for the embeddings
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.6050, 0.4341, 0.5537],
# [0.6050, 1.0000, 0.5018, 0.6815],
# [0.4341, 0.5018, 1.0000, 0.7534],
# [0.5537, 0.6815, 0.7534, 1.0000]]

🔧 技術詳細

GLuCoSE v2の微調整は以下の手順で行われています。

ステップ1: アンサンブル蒸留
- E5-mistral、gte-Qwen2、mE5-largeを教師モデルとして、埋め込み表現を蒸留しました。
ステップ2: 対照学習
- JSNLI、MNLI、PAWS-X、JSeM、Mr.TyDiからトリプレットを作成し、学習に使用しました。
- この学習は、文埋め込みモデルとしての全体的な性能を向上させることを目的としています。
ステップ3: 検索特定の対照学習
- モデルを検索タスクに対してより堅牢にするために、QAと検索タスクを用いた追加の2段階学習を行いました。
- 最初の段階では、合成データセットauto-wiki-qaを学習に使用し、2段階目ではJQaRA、MQA、Japanese Wikipedia Human Retrieval, Mr.TyDi,MIRACL, Quiz Works and Quiz No Morを使用しました。

ベンチマーク

検索

MIRACL-ja、JQARA、JaCWIR、MLDR-jaで評価されています。

モデル	サイズ	MIRACL Recall@5	JQaRA nDCG@10	JaCWIR MAP@10	MLDR nDCG@10
intfloat/multilingual-e5-large	0.6B	89.2	55.4	87.6	29.8
cl-nagoya/ruri-large	0.3B	78.7	62.4	85.0	37.5
intfloat/multilingual-e5-base	0.3B	84.2	47.2	85.3	25.4
cl-nagoya/ruri-base	0.1B	74.3	58.1	84.6	35.3
pkshatech/GLuCoSE-base-ja	0.1B	53.3	30.8	68.6	25.2
GLuCoSE v2	0.1B	85.5	60.6	85.3	33.8

注: JQARAとJaCWIRにおけるOpenAIの小規模埋め込みモデルの結果は、JQARAとJaCWIRから引用されています。

JMTEB

JMTEBで評価されています。平均スコアはマクロ平均です。

モデル	サイズ	平均	検索	STS	分類	再ランキング	クラスタリング	ペア分類
OpenAI/text-embedding-3-small	-	69.18	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	74.05	74.48	82.52	77.58	93.58	53.32	62.35
intfloat/multilingual-e5-large	0.6B	70.90	70.98	79.70	72.89	92.96	51.24	62.15
cl-nagoya/ruri-large	0.3B	73.31	73.02	83.13	77.43	92.99	51.82	62.29
intfloat/multilingual-e5-base	0.3B	68.61	68.21	79.84	69.30	92.85	48.26	62.26
cl-nagoya/ruri-base	0.1B	71.91	69.82	82.87	75.58	92.91	54.16	62.38
pkshatech/GLuCoSE-base-ja	0.1B	67.29	59.02	78.71	76.82	91.90	49.78	66.39
GLuCoSE v2	0.1B	72.23	73.36	82.96	74.21	93.01	48.65	62.37