ruri-reranker-large開源日語重排序模型 - 免費部署精準處理日語文本排序

首頁

Ruri Reranker Large

由cl-nagoya開發

琉璃重排序器是一個日語通用重排序模型，基於Sentence Transformers架構，專門用於日語文本相關性排序任務。

文本嵌入

Safetensors

日語開源協議:Apache-2.0 #日語重排序 #高精度檢索 #跨領域適配

下載量 2,538

發布時間 : 8/20/2024

模型概述

該模型是一個日語文本重排序器，能夠對查詢和文檔對進行相關性評分，適用於信息檢索系統的結果重排序。

模型特點

高性能日語重排序

在多個日語基準測試中表現優異，特別是在JQaRA、JaCWIR和MIRACL數據集上取得領先成績

基於Sentence Transformers

使用CrossEncoder架構，專門為查詢-文檔對相關性評分優化

大模型規模

擁有3.37億參數(其中3.03億為嵌入層參數)，提供更強的語義理解能力

模型能力

查詢-文檔相關性評分

信息檢索結果重排序

日語文本理解

使用案例

信息檢索

搜索引擎結果重排序

對搜索引擎返回的結果進行二次排序，提高最相關結果的排名

在JQaRA數據集上達到77.1的nDCG@10分數

問答系統答案排序

對問答系統返回的候選答案進行相關性排序

在MIRACL數據集上達到96.1的nDCG@10分數

🚀 瑠璃重排器（Ruri-Reranker）：日語通用重排器

瑠璃重排器（Ruri-Reranker）是一款日語通用重排器，基於Sentence Transformers庫，能夠對文本進行高效的重排，在多個基準測試中表現出色。

🚀 快速開始

安裝Sentence Transformers庫

首先，你需要安裝Sentence Transformers庫：

pip install -U sentence-transformers

加載模型並進行推理

安裝完成後，你可以加載模型並進行推理：

from sentence_transformers import CrossEncoder

# 從🤗 Hub下載模型
model = CrossEncoder("cl-nagoya/ruri-reranker-large")

inputs = [
    [
        "瑠璃色はどんな色？",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
    [
        "瑠璃色はどんな色？",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
]

scores = model.predict(inputs)
print(scores)
# [0.99999535 0.7374149  0.9970592  0.00682232]

result = model.rank(
    query="瑠璃色はどんな色？",
    documents=[
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
        "瑠璃、または琉璃（るり）は、仏教の七寶の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
)
print(result)
# [
#    {'corpus_id': 2, 'score': 0.99999535},
#    {'corpus_id': 1, 'score': 0.97759527},
#    {'corpus_id': 0, 'score': 0.73741615},
# ]

✨ 主要特性

高性能：在多個基準測試中表現優異，如JQaRA、JaCWIR和MIRACL。
易於使用：基於Sentence Transformers庫，方便集成到現有項目中。
多語言支持：支持日語，適用於日語相關的文本重排任務。

📦 安裝指南

安裝Sentence Transformers庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import CrossEncoder

# 從🤗 Hub下載模型
model = CrossEncoder("cl-nagoya/ruri-reranker-large")

inputs = [
    [
        "瑠璃色はどんな色？",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
    [
        "瑠璃色はどんな色？",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
    ],
    [
        "ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
]

scores = model.predict(inputs)
print(scores)
# [0.99999535 0.7374149  0.9970592  0.00682232]

高級用法

result = model.rank(
    query="瑠璃色はどんな色？",
    documents=[
        "ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
        "瑠璃、または琉璃（るり）は、仏教の七寶の一つ。サンスクリットの vaiḍūrya またはそのプラークリット形の音訳である。金緑石のこととも、ラピスラズリであるともいう[1]。",
        "瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略號 dp-pB）と定義している[1][2]。",
    ],
)
print(result)
# [
#    {'corpus_id': 2, 'score': 0.99999535},
#    {'corpus_id': 1, 'score': 0.97759527},
#    {'corpus_id': 0, 'score': 0.73741615},
# ]

📚 詳細文檔

基準測試

模型	參數量（不含嵌入層）	JQaRA	JaCWIR	MIRACL
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	107M（11M）	61.4	93.8	90.6
hotchpotch/japanese-reranker-cross-encoder-small-v1	118M（21M）	62.5	93.9	92.2
hotchpotch/japanese-reranker-cross-encoder-base-v1	111M（86M）	67.1	93.4	93.3
hotchpotch/japanese-reranker-cross-encoder-large-v1	337M（303M）	71.0	93.6	91.5
hotchpotch/japanese-bge-reranker-v2-m3-v1	568M（303M）	69.2	93.7	94.7
BAAI/bge-reranker-v2-m3	568M（303M）	67.3	93.4	94.9
Ruri-Reranker-Small	68M（43M）	64.5	92.6	92.3
Ruri-Reranker-Base	111M（86M）	74.3	93.5	95.6
Ruri-Reranker-Large（本模型）	337M（303M）	77.1	94.1	96.1

模型詳情

屬性	詳情
模型類型	Sentence Transformer
基礎模型	cl-nagoya/ruri-reranker-stage1-large
最大序列長度	512 tokens
語言	日語
許可證	Apache 2.0
論文	https://arxiv.org/abs/2409.07737