🚀 ルリリランカー:日本語汎用リランカー
ルリv3リランカーは、ModernBERT-Jaをベースに構築された汎用日本語リランカーモデルです。
ルリv3はいくつかの重要な技術的な利点を提供します。
- 最先端の性能:様々なドメインに対して高いロバスト性を備えています。
- 最大8192トークンのシーケンス長をサポート
- 語彙数が10万トークンに拡張:v1とv2の3.2万トークンに比べて大幅に増加しています。
- FlashAttentionを統合:ModernBERTのアーキテクチャに沿っています。
- SentencePieceのみをベースとしたトークナイザー
🚀 クイックスタート
📦 インストール
transformers
ライブラリv4.48.0以上を使用して、モデルを直接利用することができます。
pip install -U "transformers>=4.48.0" sentence-transformers
さらに、GPUがFlash Attention 2をサポートしている場合は、Flash Attention 2を使用してモデルを利用することをおすすめします。
pip install flash-attn --no-build-isolation
💻 使用例
基本的な使用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-v3-reranker-310m")
inputs = [
[
"瑠璃色はどんな色?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色 なに",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色はどんな色?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色はどんな色?",
documents=[
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
"瑠璃、または琉璃(るり)は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
)
print(result)
📊 ベンチマーク
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
cl-nagoya/ruri-v3-pt-310m |
最大シーケンス長 |
8192トークン |
言語 |
日本語 |
ライセンス |
Apache 2.0 |
論文 |
https://arxiv.org/abs/2409.07737 |
📝 引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}
📄 ライセンス
このモデルはApache License, Version 2.0の下で公開されています。