ruri-v3-30m オープンソース日本語汎用テキスト埋め込みモデル - 長いシーケンス処理、日语文本埋め込み性能に優れる

ホーム

Ruri V3 30m

cl-nagoyaによって開発

Ruri v3はModernBERT-Jaを基に構築された日本語汎用テキスト埋め込みモデルで、最大8192トークンのシーケンス処理をサポートし、日本語テキスト埋め込みタスクでトップクラスの性能を発揮します。

テキスト埋め込み

Safetensors

日本語オープンソースライセンス:Apache-2.0 #日本語テキスト埋め込み #長シーケンス処理 #拡張語彙表

ダウンロード数 1,135

リリース時間 : 4/7/2025

モデル概要

Ruri v3は日本語汎用テキスト埋め込みモデルで、主に文の類似度計算や特徴量抽出に使用され、様々なテキストタイプのエンコーディングをサポートします。

モデル特徴

長シーケンス処理

最大8192トークンのシーケンス処理をサポートし、前バージョン（512トークン）と比べて大幅に向上しています。

拡張語彙表

10万トークンの拡張語彙表（前バージョンは3.2万）により、入力シーケンスを短縮し効率を向上させます。

FlashAttention技術

FlashAttention技術を統合し、より高速な推論とファインチューニングを実現します。

純粋なSentencePieceトークナイザー

外部トークナイザーツールが不要で、SentencePieceのみでトークン化が可能です。

モデル能力

日本語テキスト埋め込み

文の類似度計算

特徴量抽出

長文処理

使用事例

テキスト検索

ドキュメント検索

'検索文ド'プレフィックスで検索対象ドキュメントをエンコードし、効率的なドキュメント検索を実現します。

クエリ検索

'検索クエリ'プレフィックスでクエリ文をエンコードし、検索精度を向上させます。

テキスト分類

トピック分類

'トピック'プレフィックスでテキストをエンコードし、トピック分類やクラスタリングを実現します。

🚀 瑠璃（Ruri）：日本語汎用テキスト埋め込みモデル

瑠璃（Ruri）v3 は、ModernBERT-Ja をベースに構築された汎用的な日本語テキスト埋め込みモデルです。瑠璃 v3 はいくつかの重要な技術的な利点を提供します。

日本語テキスト埋め込みタスクにおける最先端の性能。
最大8192トークンのシーケンス長をサポート
- 以前のバージョンの瑠璃（v1、v2）は512に制限されていました。
10万トークンの拡張語彙 （v1とv2の3.2万トークンに比べて）
- より大きな語彙により、入力シーケンスが短くなり、効率が向上します。
ModernBERTのアーキテクチャに基づくFlashAttentionの統合
- より高速な推論と微調整を可能にします。
SentencePieceのみに基づくトークナイザー
- 以前のバージョンは日本語固有のBERTトークナイザーに依存し、事前にトークン化された入力が必要でしたが、瑠璃 v3 はSentencePieceのみでトークン化を行い、外部の形態素解析ツールは必要ありません。

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールします。その後、モデルをロードして推論を実行できます。

✨ 主な機能

日本語テキスト埋め込みタスクにおける最先端の性能を提供します。
最大8192トークンのシーケンス長をサポートし、以前のバージョンよりも長いテキストを扱えます。
10万トークンの拡張語彙により、入力シーケンスが短くなり、効率が向上します。
FlashAttentionを統合することで、高速な推論と微調整が可能です。
SentencePieceのみに基づくトークナイザーを使用し、外部の形態素解析ツールが不要です。

📦 インストール

以下のコマンドを使用して、必要なライブラリをインストールします。

pip install -U "transformers>=4.48.0" sentence-transformers

また、GPUがFlash Attention 2をサポートしている場合は、以下のコマンドでFlash Attention 2をインストールすることをおすすめします。

pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-30m", device=device)

# 瑠璃 v3 は、異なるタイプのテキスト入力を区別するために1+3のプレフィックス方式を採用しています。
# "" (空文字列) は、意味的な意味をエンコードするために使用されます。
# "トピック: " は、分類、クラスタリング、およびトピック情報のエンコードに使用されます。
# "検索クエリ: " は、検索タスクのクエリに使用されます。
# "検索文書: " は、検索対象の文書に使用されます。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 256]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
# [[1.0000, 0.9540, 0.8512, 0.7322, 0.7274],
#  [0.9540, 1.0000, 0.8531, 0.7437, 0.7305],
#  [0.8512, 0.8531, 1.0000, 0.8910, 0.8649],
#  [0.7322, 0.7437, 0.8910, 1.0000, 0.9479],
#  [0.7274, 0.7305, 0.8649, 0.9479, 1.0000]]

📚 ドキュメント

モデルシリーズ

瑠璃 v3 はいくつかのモデルサイズで提供されています。以下は各モデルの概要です。

ID	パラメータ数	パラメータ数（埋め込みを除く）	次元数	レイヤー数	平均JMTEB
cl-nagoya/ruri-v3-30m	3700万	1000万	256	10	74.51
cl-nagoya/ruri-v3-70m	7000万	3100万	384	13	75.48
cl-nagoya/ruri-v3-130m	1.32億	8000万	512	19	76.55
cl-nagoya/ruri-v3-310m	3.15億	2.36億	768	25	77.24

ベンチマーク

JMTEB

JMTEB を使用して評価されました。

モデル	パラメータ数	平均	検索	STS	分類	再ランキング	クラスタリング	ペア分類

Ruri-v3-30m (このモデル)	3700万	74.51	78.08	82.48	74.80	93.00	52.12	62.40
Ruri-v3-70m	7000万	75.48	79.96	79.82	76.97	93.27	52.70	61.75
Ruri-v3-130m	1.32億	76.55	81.89	79.25	77.16	93.31	55.36	62.26
Ruri-v3-310m	3.15億	77.24	81.89	81.22	78.66	93.43	55.69	62.60

sbintuitions/sarashina-embedding-v1-1b	12.2億	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B	10.5億	76.10	79.94	83.14	77.20	93.57	53.47	62.37

OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35

pkshatech/GLuCoSE-base-ja	1330万	70.44	59.02	78.71	76.82	91.90	49.78	66.39
pkshatech/GLuCoSE-base-ja-v2	1330万	72.23	73.36	82.96	74.21	93.01	48.65	62.37
retrieva-jp/amber-base	1300万	72.12	73.40	77.81	76.14	93.27	48.05	64.03
retrieva-jp/amber-large	3150万	73.22	75.40	79.32	77.14	93.54	48.73	60.97

sentence-transformers/LaBSE	4.72億	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	1180万	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	2780万	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	5.6億	71.65	70.98	79.70	72.89	92.96	51.24	62.15

Ruri-Small	680万	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	680万	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	1110万	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2	1110万	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	3.37億	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2	3.37億	74.55	76.34	83.17	77.18	93.21	52.14	62.27

モデル詳細

モデルの説明

属性	详情
モデルタイプ	Sentence Transformer
ベースモデル	cl-nagoya/ruri-v3-pt-30m
最大シーケンス長	8192トークン
出力次元数	256
類似度関数	コサイン類似度
言語	日本語
ライセンス	Apache 2.0
論文	https://arxiv.org/abs/2409.07737

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 256, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}