Ruri-reranker-stage1-base: An Open-Source Japanese Text Re-ranking Model - Optimizing the Sorting Quality of Search Results

Ruri Reranker Stage1 Base

Developed by cl-nagoya

Ruri Reranker is a Japanese text reranking model based on Transformer architecture, specifically designed to optimize the ranking quality of retrieval results.

Text Embedding

Safetensors

JapaneseOpen Source License:Apache-2.0 #Japanese Reranking #High-Precision Retrieval #Cross-Encoder Architecture

Downloads 26

Release Time : 8/19/2024

Model Overview

This model is a general-purpose Japanese reranking model based on Transformer architecture, specifically designed to optimize the ranking quality of retrieval results. It can rerank search results to improve the ranking of relevant documents.

Model Features

Japanese Optimization

A reranking model specifically optimized for Japanese text

High Performance

Outperforms similar models on multiple Japanese benchmarks

Lightweight

Fewer parameters compared to large models while maintaining high performance

Model Capabilities

Text Relevance Scoring

Retrieval Result Reranking

Query-Document Matching Evaluation

Use Cases

Information Retrieval

Search Engine Optimization

Rerank search engine results to improve relevance

Enhance efficiency for users to obtain accurate information

Question Answering Systems

Rank candidate answers to select the most relevant response

Improve the accuracy of question answering systems

🚀 Ruri-Reranker: Japanese General Reranker

Ruri-Reranker is a Japanese general reranker that can effectively rank text pairs, providing high - quality text ranking services.

🚀 Quick Start

✨ Features

Based on the Sentence Transformers library, it can be easily integrated into various NLP projects.
Supports direct inference and ranking operations on text pairs.

📦 Installation

First, you need to install the Sentence Transformers library:

pip install -U sentence-transformers

💻 Usage Examples

Basic Usage

After installing the necessary library, you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")

inputs = [
    [
        "瑠璃色はどんな色？",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
    ],
    [
        "瑠璃色はどんな色？",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
    ],
]

scores = model.predict(inputs)
print(scores)

result = model.rank(
    query="瑠璃色はどんな色？",
    documents=[
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
        "瑠璃、または琉璃（るり）は、仏教の七宝の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
    ],
)
print(result)

📚 Documentation

Benchmarks

Model	#Param.(w/oEmb.)	JQaRA	JaCWIR	MIRACL
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	107M(11M)	61.4	93.8	90.6
hotchpotch/japanese-reranker-cross-encoder-small-v1	118M(21M)	62.5	93.9	92.2
hotchpotch/japanese-reranker-cross-encoder-base-v1	111M(86M)	67.1	93.4	93.3
hotchpotch/japanese-reranker-cross-encoder-large-v1	337M(303M)	71.0	93.6	91.5
hotchpotch/japanese-bge-reranker-v2-m3-v1	568M(303M)	69.2	93.7	94.7
BAAI/bge-reranker-v2-m3	568M(303M)	67.3	93.4	94.9

Ruri-Reranker-Small	68M(43M)	64.5	92.6	92.3
Ruri-Reranker-Base (this model)	111M(86M)	74.3	93.5	95.6
Ruri-Reranker-Large	337M(303M)	77.1	94.1	96.1

Model Details

Property	Details
Model Type	Sentence Transformer
Base model	cl-nagoya/ruri-pr-base
Maximum Sequence Length	512 tokens
Language	Japanese
License	Apache 2.0
Paper	https://arxiv.org/abs/2409.07737

Training Details

Framework Versions

Python: 3.10.13
Sentence Transformers: 3.0.0
Transformers: 4.41.2
PyTorch: 2.3.1+cu118
Accelerate: 0.30.1
Datasets: 2.19.1
Tokenizers: 0.19.1

📄 License

This model is published under the Apache License, Version 2.0.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご