🚀 Sarashina-Embedding-v1-1B
"Sarashina-Embedding-v1-1B" は、12億パラメータの日本語大規模言語モデル "Sarashina2.1-1B" をベースにした日本語テキスト埋め込みモデルです。多段階の対照学習を用いて学習され、JMTEB(日本語大規模テキスト埋め込みベンチマーク)の16のデータセットにわたる平均スコアで最先端の性能を達成しています。このモデルは、文章や段落を1792次元の密ベクトル空間にマッピングし、意味的な文章類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのアプリケーションに使用できます。
🚀 クイックスタート
モデルのインストール
まずは、Sentence Transformers
ライブラリをインストールします。
pip install -U sentence-transformers
推論の実行
次に、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
sentences = [
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
⚠️ 重要提示
✨ 主な機能
- 日本語テキストを1792次元の密ベクトル空間にマッピングすることができます。
- 意味的な文章類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのアプリケーションに使用できます。
- 多段階の対照学習を用いて学習され、JMTEBの平均スコアで最先端の性能を達成しています。
📦 インストール
ライブラリのインストール
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
sentences = [
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 ドキュメント
モデルの詳細
モデルの説明
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel
(1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)
学習
第1段階: 弱教師付き学習
幅広いドメインにわたる汎用的なテキスト埋め込み性能を達成するために、独自のウェブクロールデータとオープンデータからなる弱教師付きデータで対照学習を行いました。
データセット |
件数 |
Auto Wiki QA/NLI |
50,521,135 |
ウェブクロールデータ (独自) |
47,370,649 |
MQA |
12,941,472 |
llm-japanese-dataset |
9,074,340 |
Wikipedia |
5,555,212 |
クイズデータセット (独自) |
988,478 |
Natural Questions |
132,796 |
JSQuAD |
62,859 |
SNOW(T15+T23) |
62,758 |
JaQuAD |
31,746 |
MKQA |
3,318 |
|
|
合計 |
126,744,763 |
第2段階: 教師付き微調整
モデルがより正確なクエリ - ドキュメント類似度を学習できるように、以下のデータセットを使用して教師付き微調整を行いました。
📄 ライセンス
このモデルは Sarashina Model NonCommercial License Agreement の下でライセンスされています。
このモデルを商用目的で使用する場合は、問い合わせページ を通じてお問い合わせください。