オープンソースで無料のsarashina-embedding-v1-1bテキスト埋め込みモデルは、日本語処理で優れた性能を発揮します。

ホーム

Sarashina Embedding V1 1b

sbintuitionsによって開発

12億パラメータの日本語大規模言語モデルを基に開発されたテキスト埋め込みモデルで、JMTEBベンチマークで優れた性能を発揮

テキスト埋め込み

Transformers

複数言語対応#日本語テキスト埋め込み #8192長文対応 #1792次元密ベクトル

ダウンロード数 23.85k

リリース時間 : 11/22/2024

モデル概要

更級埋め込みモデルv1-1Bは日本語大規模言語モデルを基にしたテキスト埋め込みモデルで、文や段落を1792次元の密ベクトル空間にマッピングでき、意味的テキスト類似度計算や意味検索など様々な場面に適用可能

モデル特徴

高次元密ベクトル

1792次元の密ベクトルを出力し、より精細に意味情報を捕捉可能

長文対応

最大8192トークンまでの長文処理をサポート

多段階訓練

弱教師あり学習と教師あり微調整の2段階訓練によりモデル性能を向上

日本語最適化

日本語テキストに特化して最適化され、JMTEBベンチマークで優れた成績

モデル能力

意味的テキスト類似度計算

意味検索

言い換えマイニング

テキスト分類

クラスタリング分析

使用事例

情報検索

文書検索

クエリの意味に基づき関連文書を迅速に検索

JMTEB検索タスクで77.61点を獲得

テキスト分析

テキスト類似度計算

2つのテキスト間の意味的類似度を計算

JMTEB意味類似度タスクで82.71点を獲得

テキストクラスタリング

意味的に類似したテキストを自動的にグループ化

JMTEBクラスタリングタスクで53.86点を獲得

🚀 Sarashina-Embedding-v1-1B

"Sarashina-Embedding-v1-1B" は、12億パラメータの日本語大規模言語モデル "Sarashina2.1-1B" をベースにした日本語テキスト埋め込みモデルです。多段階の対照学習を用いて学習され、JMTEB（日本語大規模テキスト埋め込みベンチマーク）の16のデータセットにわたる平均スコアで最先端の性能を達成しています。このモデルは、文章や段落を1792次元の密ベクトル空間にマッピングし、意味的な文章類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのアプリケーションに使用できます。

🚀 クイックスタート

モデルのインストール

まずは、Sentence Transformers ライブラリをインストールします。

pip install -U sentence-transformers

推論の実行

次に、このモデルをロードして推論を実行できます。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
# 推論を実行
sentences = [
    '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
    'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
    'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1792]

# 埋め込み間の類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

⚠️ 重要提示

入力文の先頭に "Query: " や "Document: " などの接頭辞を追加する必要はありません。

このモデルは Sarashina Model NonCommercial License Agreement の下でライセンスされており、商用利用に制限があります。このモデルを商用目的で利用する場合は、問い合わせページを通じてお問い合わせください。

✨ 主な機能

日本語テキストを1792次元の密ベクトル空間にマッピングすることができます。
意味的な文章類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのアプリケーションに使用できます。
多段階の対照学習を用いて学習され、JMTEBの平均スコアで最先端の性能を達成しています。

📦 インストール

ライブラリのインストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
# 推論を実行
sentences = [
    '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
    'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
    'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1792]

# 埋め込み間の類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 ドキュメント

モデルの詳細

モデルの説明

属性	详情
モデルタイプ	Sentence Transformer
ベースモデル	Sarashina2.1-1B
最大シーケンス長	8,192トークン
出力次元数	1,792次元
類似度関数	コサイン類似度
言語	日本語
ライセンス	Sarashina Model NonCommercial License Agreement

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel 
  (1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)

学習

第1段階: 弱教師付き学習

幅広いドメインにわたる汎用的なテキスト埋め込み性能を達成するために、独自のウェブクロールデータとオープンデータからなる弱教師付きデータで対照学習を行いました。

データセット	件数
Auto Wiki QA/NLI	50,521,135
ウェブクロールデータ (独自)	47,370,649
MQA	12,941,472
llm-japanese-dataset	9,074,340
Wikipedia	5,555,212
クイズデータセット (独自)	988,478
Natural Questions	132,796
JSQuAD	62,859
SNOW(T15+T23)	62,758
JaQuAD	31,746
MKQA	3,318

合計	126,744,763

第2段階: 教師付き微調整

モデルがより正確なクエリ - ドキュメント類似度を学習できるように、以下のデータセットを使用して教師付き微調整を行いました。

データセット	件数
JSNLI	141,388
NU-MNLI	67,987
Mr. TyDi (日本語サブセットのみ)	3,697
Natural Questions (サンプリング済み)	20,000

合計	233,072

JMTEBによる評価結果

モデル	最大トークン数	平均	検索	STS	分類	再ランキング	クラスタリング	ペア分類
OpenAI/text-embedding-3-large ^oai	8191	74.05	74.48	82.52	77.58	93.58	53.32	62.35
cl-nagoya/ruri-large	512	73.31	73.02	83.13	77.43	92.99	51.82	62.29
pkshatech/GLuCoSE-base-ja-v2	512	72.23	73.36	82.96	74.21	93.01	48.65	62.37
pkshatech/RoSEtta-base-ja	1024	72.04	73.21	81.39	72.41	92.69	53.23	61.74
intfloat/multilingual-e5-large	512	70.90	70.98	79.70	72.89	92.96	51.24	62.15
Sarashina-Embedding-v1-1B(このモデル)	8192	75.50	77.61	82.71	78.37	93.74	53.86	62.00