🚀 瑠璃(Ruri):日本語汎用テキスト埋め込みモデル
瑠璃(Ruri)v3 は、ModernBERT-Ja をベースに構築された汎用的な日本語テキスト埋め込みモデルです。瑠璃 v3 はいくつかの重要な技術的な利点を提供します。
- 日本語テキスト埋め込みタスクにおける最先端の性能。
- 最大8192トークンのシーケンス長をサポート
- 以前のバージョンの瑠璃(v1、v2)は512に制限されていました。
- 10万トークンの拡張語彙 (v1とv2の3.2万トークンに比べて)
- より大きな語彙により、入力シーケンスが短くなり、効率が向上します。
- ModernBERTのアーキテクチャに基づくFlashAttentionの統合
- SentencePieceのみに基づくトークナイザー
- 以前のバージョンは日本語固有のBERTトークナイザーに依存し、事前にトークン化された入力が必要でしたが、瑠璃 v3 はSentencePieceのみでトークン化を行い、外部の形態素解析ツールは必要ありません。
🚀 クイックスタート
このモデルを使用するには、まず必要なライブラリをインストールします。その後、モデルをロードして推論を実行できます。
✨ 主な機能
- 日本語テキスト埋め込みタスクにおける最先端の性能を提供します。
- 最大8192トークンのシーケンス長をサポートし、以前のバージョンよりも長いテキストを扱えます。
- 10万トークンの拡張語彙により、入力シーケンスが短くなり、効率が向上します。
- FlashAttentionを統合することで、高速な推論と微調整が可能です。
- SentencePieceのみに基づくトークナイザーを使用し、外部の形態素解析ツールが不要です。
📦 インストール
以下のコマンドを使用して、必要なライブラリをインストールします。
pip install -U "transformers>=4.48.0" sentence-transformers
また、GPUがFlash Attention 2をサポートしている場合は、以下のコマンドでFlash Attention 2をインストールすることをおすすめします。
pip install flash-attn --no-build-isolation
💻 使用例
基本的な使用法
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-30m", device=device)
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
📚 ドキュメント
モデルシリーズ
瑠璃 v3 はいくつかのモデルサイズで提供されています。以下は各モデルの概要です。
ベンチマーク
JMTEB
JMTEB を使用して評価されました。
モデル詳細
モデルの説明
属性 |
详情 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
cl-nagoya/ruri-v3-pt-30m |
最大シーケンス長 |
8192トークン |
出力次元数 |
256 |
類似度関数 |
コサイン類似度 |
言語 |
日本語 |
ライセンス |
Apache 2.0 |
論文 |
https://arxiv.org/abs/2409.07737 |
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 256, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
📄 ライセンス
このモデルは Apache License, Version 2.0 の下で公開されています。