🚀 瑠璃重排器:日語通用重排模型
瑠璃v3重排器 是一個基於 ModernBERT-Ja 構建的通用日語重排模型。瑠璃v3具備多項關鍵技術優勢:
- 卓越性能:在多個領域表現出色,且具有良好的魯棒性。
- 支持長序列:支持長達8192個標記的序列長度。
- 擴展詞彙表:詞彙表擴展至100K個標記,而v1和v2版本僅為32K。
- 集成快速注意力機制:採用ModernBERT架構,集成了FlashAttention。
- 單一分詞器:分詞器僅基於SentencePiece。
🚀 快速開始
✨ 主要特性
- 卓越性能:在多個領域表現出色,且具有良好的魯棒性。
- 支持長序列:支持長達8192個標記的序列長度。
- 擴展詞彙表:詞彙表擴展至100K個標記,而v1和v2版本僅為32K。
- 集成快速注意力機制:採用ModernBERT架構,集成了FlashAttention。
- 單一分詞器:分詞器僅基於SentencePiece。
📦 安裝指南
你可以使用transformers庫v4.48.0或更高版本直接使用我們的模型:
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的GPU支持Flash Attention 2,我們建議結合Flash Attention 2使用我們的模型。
pip install flash-attn --no-build-isolation
💻 使用示例
基礎用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-v3-reranker-310m")
inputs = [
[
"瑠璃色はどんな色?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色 なに",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色はどんな色?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色はどんな色?",
documents=[
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
"瑠璃、または琉璃(るり)は、仏教の七寶の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
],
)
print(result)
📚 詳細文檔
基準測試
模型詳情
🔧 技術細節
本模型基於 ModernBERT-Ja 構建,具備多項關鍵技術優勢:
- 卓越性能:在多個領域表現出色,且具有良好的魯棒性。
- 支持長序列:支持長達8192個標記的序列長度。
- 擴展詞彙表:詞彙表擴展至100K個標記,而v1和v2版本僅為32K。
- 集成快速注意力機制:採用ModernBERT架構,集成了FlashAttention。
- 單一分詞器:分詞器僅基於SentencePiece。
📄 許可證
本模型根據 Apache License, Version 2.0 發佈。
📖 引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}