RoSEtta-base-jaオープンソース日本語テキスト埋め込みモデル - 文の類似度と段落検索に無料で利用可能

ホーム

Rosetta Base Ja

pkshatechによって開発

RoSEttaは汎用日本語テキスト埋め込みモデルで、検索タスクに優れ、1024トークンのシーケンス長をサポートし、文類似度計算や段落検索に適しています。

テキスト埋め込み

Safetensors

日本語オープンソースライセンス:Apache-2.0 #日本語意味検索 #長文埋め込み #蒸留強化

ダウンロード数 1,760

リリース時間 : 8/22/2024

モデル概要

RoFormerアーキテクチャに基づく日本語テキスト埋め込みモデルで、蒸留と多段階対照学習により最適化され、検索タスク向けに設計されており、長文入力とCPU実行をサポートします。

モデル特徴

長文処理能力

最大1024トークンのシーケンス長をサポートし、長文入力を効果的に処理可能

検索最適化設計

多段階対照学習と蒸留訓練により、検索タスク性能を特別に最適化

効率的推論

モデル規模が適度（0.2Bパラメータ）で、CPU上で効率的に実行可能

回転位置エンコーディング

RoPE（回転位置エンコーディング）技術を採用し、位置情報処理能力を強化

モデル能力

文の意味的類似度計算

テキスト特徴抽出

クエリベースの段落検索

長文意味理解

使用事例

情報検索

QAシステム検索

QAシステムで質問に最も関連する回答段落を迅速に検索

MIRACL-jaデータセットで79.3のrecall@5を達成

文書類似度分析

文書や文間の意味的類似度を計算

JMTEB評価でSTSタスクスコア81.39

コンテンツ管理

重複コンテンツ検出

ウェブサイトや文書セット内の重複または高度に類似したコンテンツを識別

🚀 RoSEtta

RoSEtta（RoFormerベースのSentence Encoder through Distillation）は、一般的な日本語テキスト埋め込みモデルで、検索タスクに特化しています。最大シーケンス長は1024で、長文の入力が可能です。CPU上でも実行でき、文章間の意味的な類似度を測定したり、クエリに基づいてパッセージを検索する検索システムとして機能するように設計されています。

🚀 クイックスタート

RoSEttaは、検索タスクに特化した一般的な日本語テキスト埋め込みモデルです。最大シーケンス長が1024で、長文の入力に対応しています。また、CPU上での実行も可能で、文章間の意味的な類似度を測定することができます。

✨ 主な機能

RoPE（Rotary Position Embedding）を使用
最大シーケンス長が1024トークン
大規模な文章埋め込みモデルから知識蒸留
検索タスクに特化

推論時には、接頭辞 "query: " または "passage: " が必要です。詳細は「使用例」を参照してください。

📚 ドキュメント

モデルの説明

このモデルはRoFormerアーキテクチャに基づいています。MLM損失を使用して事前学習した後、弱教師付き学習を行いました。さらに、いくつかの大規模な埋め込みモデルを教師モデルとして知識蒸留と多段階の対照学習（GLuCoSE v2など）を行って学習を進めました。

属性	详情
最大シーケンス長	1024トークン
出力次元数	768トークン
類似度関数	コサイン類似度

使用例

基本的な使用法

SentenceTransformerを使用して推論を行うことができます。以下はサンプルコードです。

from sentence_transformers import SentenceTransformer
import torch.nn.functional as F

# Download from the 🤗 Hub
# The argument "trust_remote_code=True" is required to load the model
model = SentenceTransformer("pkshatech/RoSEtta-base-ja",trust_remote_code=True)

# Each input text should start with "query: " or "passage: ".
# For tasks other than retrieval, you can simply use the "query: " prefix.
sentences = [
    'query: PKSHAはどんな会社ですか？',
    'passage: 研究開発したアルゴリズムを、多くの企業のソフトウエア・オペレーションに導入しています。',
    'query: 日本で一番高い山は？',
    'passage: 富士山（ふじさん）は、標高3776.12 m、日本最高峰（剣ヶ峰）の独立峰で、その優美な風貌は日本国外でも日本の象徴として広く知られている。',
]
embeddings = model.encode(sentences,convert_to_tensor=True)
print(embeddings.shape)
# [4, 768]

# Get the similarity scores for the embeddings
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.5910, 0.4332, 0.5421],
# [0.5910, 1.0000, 0.4977, 0.6969],
# [0.4332, 0.4977, 1.0000, 0.7475],
# [0.5421, 0.6969, 0.7475, 1.0000]]

高度な使用法

Transformersを使用して推論を行うこともできます。以下はサンプルコードです。

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def mean_pooling(last_hidden_states: Tensor,attention_mask: Tensor) -> Tensor:
    emb = last_hidden_states * attention_mask.unsqueeze(-1)
    emb = emb.sum(dim=1) / attention_mask.sum(dim=1).unsqueeze(-1)
    return emb

# Download from the 🤗 Hub
tokenizer = AutoTokenizer.from_pretrained("pkshatech/RoSEtta-base-ja")
# The argument "trust_remote_code=True" is required to load the model
model = AutoModel.from_pretrained("pkshatech/RoSEtta-base-ja",trust_remote_code=True)

# Each input text should start with "query: " or "passage: ".
# For tasks other than retrieval, you can simply use the "query: " prefix.
sentences = [
    'query: PKSHAはどんな会社ですか？',
    'passage: 研究開発したアルゴリズムを、多くの企業のソフトウエア・オペレーションに導入しています。',
    'query: 日本で一番高い山は？',
    'passage: 富士山（ふじさん）は、標高3776.12 m、日本最高峰（剣ヶ峰）の独立峰で、その優美な風貌は日本国外でも日本の象徴として広く知られている。',
]

# Tokenize the input texts
batch_dict = tokenizer(sentences, max_length=1024, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = mean_pooling(outputs.last_hidden_state, batch_dict['attention_mask'])
print(embeddings.shape)
# [4, 768]

# Get the similarity scores for the embeddings
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.5910, 0.4332, 0.5421],
# [0.5910, 1.0000, 0.4977, 0.6969],
# [0.4332, 0.4977, 1.0000, 0.7475],
# [0.5421, 0.6969, 0.7475, 1.0000]]

学習の詳細

RoSEttaの微調整は以下の手順で行われました。

ステップ1: 事前学習

モデルはRoFormerアーキテクチャに基づいて事前学習されました。
学習データ: Japanese Wikipedia と cc100。

ステップ2: 弱教師付き学習

学習データ: MQA と mc4。

ステップ3: アンサンブル知識蒸留

埋め込み表現は、E5-mistral、gte-Qwen2、mE5-large を教師モデルとして知識蒸留されました。

ステップ4: 対照学習

JSNLI、MNLI、PAWS-X、JSeM、Mr.TyDi からトリプレットを作成し、学習に使用しました。
この学習は、文章埋め込みモデルとしての全体的な性能を向上させることを目的としています。

ステップ5: 検索特定の対照学習

モデルを検索タスクに対してより頑健にするために、QAと検索タスクを用いた追加の2段階学習を行いました。
第1段階では、合成データセット auto-wiki-qa を使用して学習し、第2段階では JQaRA、MQA、Japanese Wikipedia Human Retrieval, Mr.TyDi,MIRACL, Quiz Works and Quiz No Mor を使用しました。

ベンチマーク

検索

MIRACL-ja、JQARA、JaCWIR、MLDR-ja を使用して評価しました。

モデル	サイズ	MIRACL Recall@5	JQaRA nDCG@10	JaCWIR MAP@10	MLDR nDCG@10
intfloat/multilingual-e5-large	0.6B	89.2	55.4	87.6	29.8
cl-nagoya/ruri-large	0.3B	78.7	62.4	85.0	37.5

intfloat/multilingual-e5-base	0.3B	84.2	47.2	85.3	25.4
cl-nagoya/ruri-base	0.1B	74.3	58.1	84.6	35.3
pkshatech/GLuCoSE-base-ja	0.1B	53.3	30.8	68.6	25.2
RoSEtta	0.2B	79.3	57.7	83.8	32.3

注: JQARAとJaCWIRにおけるOpenAIの小規模埋め込みモデルの結果は、JQARA と JaCWIR から引用しています。

JMTEB

JMTEB を使用して評価しました。平均スコアはマクロ平均です。

モデル	サイズ	平均	検索	STS	分類	再ランキング	クラスタリング	ペア分類
OpenAI/text-embedding-3-small	-	69.18	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	74.05	74.48	82.52	77.58	93.58	53.32	62.35

intfloat/multilingual-e5-large	0.6B	70.90	70.98	79.70	72.89	92.96	51.24	62.15
cl-nagoya/ruri-large	0.3B	73.31	73.02	83.13	77.43	92.99	51.82	62.29

intfloat/multilingual-e5-base	0.3B	68.61	68.21	79.84	69.30	92.85	48.26	62.26
cl-nagoya/ruri-base	0.1B	71.91	69.82	82.87	75.58	92.91	54.16	62.38
pkshatech/GLuCoSE-base-ja	0.1B	67.29	59.02	78.71	76.82	91.90	49.78	66.39
RoSEtta	0.2B	72.45	73.21	81.39	72.41	92.69	53.23	61.74