🚀 瑠璃重排器:日语通用重排模型
瑠璃v3重排器 是一个基于 ModernBERT-Ja 构建的通用日语重排模型。瑠璃v3具备多项关键技术优势:
- 卓越性能:在多个领域表现出色,且具有良好的鲁棒性。
- 支持长序列:支持长达8192个标记的序列长度。
- 扩展词汇表:词汇表扩展至100K个标记,而v1和v2版本仅为32K。
- 集成快速注意力机制:采用ModernBERT架构,集成了FlashAttention。
- 单一分词器:分词器仅基于SentencePiece。
🚀 快速开始
✨ 主要特性
- 卓越性能:在多个领域表现出色,且具有良好的鲁棒性。
- 支持长序列:支持长达8192个标记的序列长度。
- 扩展词汇表:词汇表扩展至100K个标记,而v1和v2版本仅为32K。
- 集成快速注意力机制:采用ModernBERT架构,集成了FlashAttention。
- 单一分词器:分词器仅基于SentencePiece。
📦 安装指南
你可以使用transformers库v4.48.0或更高版本直接使用我们的模型:
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的GPU支持Flash Attention 2,我们建议结合Flash Attention 2使用我们的模型。
pip install flash-attn --no-build-isolation
💻 使用示例
基础用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-v3-reranker-310m")
inputs = [
[
"瑠璃色はどんな色?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色 なに",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
[
"瑠璃色はどんな色?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
],
[
"ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色はどんな色?",
documents=[
"ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
"瑠璃、または琉璃(るり)は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
"瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略号 dp-pB)と定義している[1][2]。",
],
)
print(result)
📚 详细文档
基准测试
模型详情
🔧 技术细节
本模型基于 ModernBERT-Ja 构建,具备多项关键技术优势:
- 卓越性能:在多个领域表现出色,且具有良好的鲁棒性。
- 支持长序列:支持长达8192个标记的序列长度。
- 扩展词汇表:词汇表扩展至100K个标记,而v1和v2版本仅为32K。
- 集成快速注意力机制:采用ModernBERT架构,集成了FlashAttention。
- 单一分词器:分词器仅基于SentencePiece。
📄 许可证
本模型根据 Apache License, Version 2.0 发布。
📖 引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}