Ruri-reranker-stage1-base開源日語文本重排序模型

首頁

Ruri Reranker Stage1 Base

由cl-nagoya開發

瑠璃重排序器是一個基於Transformer架構的日語文本重排序模型，專門用於優化檢索結果的排序質量。

文本嵌入

Safetensors

日語開源協議:Apache-2.0 #日語重排序 #高精度檢索 #跨編碼器架構

下載量 26

發布時間 : 8/19/2024

模型概述

該模型是一個日語通用重排序模型，基於Transformer架構，專門用於優化檢索結果的排序質量。它可以對檢索結果進行重新排序，提高相關文檔的排名。

模型特點

日語優化

專門針對日語文本優化的重排序模型

高性能

在多個日語基準測試上表現優異，超越同類模型

輕量級

相比大型模型，在保持高性能的同時參數更少

模型能力

文本相關性評分

檢索結果重排序

查詢-文檔匹配度評估

使用案例

信息檢索

搜索引擎優化

對搜索引擎返回的結果進行重新排序，提高相關性

提升用戶獲取準確信息的效率

問答系統

對候選答案進行排序，選擇最相關的回答

提高問答系統的準確率

🚀 瑠璃重排器（Ruri-Reranker）：日語通用重排器

瑠璃重排器（Ruri-Reranker）是一個用於日語的通用重排器，基於Sentence Transformers庫，能對文本進行排序，在問答、信息檢索等場景有良好表現。

🚀 快速開始

直接使用（Sentence Transformers）

首先，安裝Sentence Transformers庫：

pip install -U sentence-transformers

然後，你可以加載該模型並進行推理：

from sentence_transformers import CrossEncoder

# 從 🤗 Hub 下載
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")

inputs = [
    [
        "瑠璃色是怎樣的顏色？",
        "瑠璃色（るりいろ）是帶紫色調的深藍色。名稱來源於半寶石瑠璃（青金石，英: lapis lazuli）。在JIS慣用色名中定義為「深紫色的藍色」（縮寫 dp - pB）[1][2]。",
    ],
    [
        "瑠璃色是怎樣的顏色？",
        "鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代（17 - 18世紀）被分類為鷲類、鷹類、隼類和梟類。順便說一下，林奈將狩獵的鳥類歸為單一的目（もく），包括vultur（康多兀鷲、禿鷲）、falco（鷹、鷲、隼等）、strix（貓頭鷹）、lanius（伯勞）4個屬。",
    ],
    [
        "像鷹和鷲這樣，擁有鋒利的喙和爪子的大型鳥類統稱為什麼類？",
        "鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代（17 - 18世紀）被分類為鷲類、鷹類、隼類和梟類。順便說一下，林奈將狩獵的鳥類歸為單一的目（もく），包括vultur（康多兀鷲、禿鷲）、falco（鷹、鷲、隼等）、strix（貓頭鷹）、lanius（伯勞）4個屬。",
    ],
    [
        "像鷹和鷲這樣，擁有鋒利的喙和爪子的大型鳥類統稱為什麼類？",
        "瑠璃色（るりいろ）是帶紫色調的深藍色。名稱來源於半寶石瑠璃（青金石，英: lapis lazuli）。在JIS慣用色名中定義為「深紫色的藍色」（縮寫 dp - pB）[1][2]。",
    ],
]

scores = model.predict(inputs)
print(scores)

result = model.rank(
    query="瑠璃色是怎樣的顏色？",
    documents=[
        "鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代（17 - 18世紀）被分類為鷲類、鷹類、隼類和梟類。順便說一下，林奈將狩獵的鳥類歸為單一的目（もく），包括vultur（康多兀鷲、禿鷲）、falco（鷹、鷲、隼等）、strix（貓頭鷹）、lanius（伯勞）4個屬。",
        "瑠璃，或者琉璃（るり）是佛教七寶之一。是梵語vaiḍūrya或其俗語形式的音譯。也指金綠寶石，也說是青金石[1]。",
        "瑠璃色（るりいろ）是帶紫色調的深藍色。名稱來源於半寶石瑠璃（青金石，英: lapis lazuli）。在JIS慣用色名中定義為「深紫色的藍色」（縮寫 dp - pB）[1][2]。",
    ],
)
print(result)

💻 使用示例

基礎用法

from sentence_transformers import CrossEncoder

# 從 🤗 Hub 下載
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")

inputs = [
    [
        "瑠璃色是怎樣的顏色？",
        "瑠璃色（るりいろ）是帶紫色調的深藍色。名稱來源於半寶石瑠璃（青金石，英: lapis lazuli）。在JIS慣用色名中定義為「深紫色的藍色」（縮寫 dp - pB）[1][2]。",
    ]
]

scores = model.predict(inputs)
print(scores)

高級用法

result = model.rank(
    query="瑠璃色是怎樣的顏色？",
    documents=[
        "鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代（17 - 18世紀）被分類為鷲類、鷹類、隼類和梟類。順便說一下，林奈將狩獵的鳥類歸為單一的目（もく），包括vultur（康多兀鷲、禿鷲）、falco（鷹、鷲、隼等）、strix（貓頭鷹）、lanius（伯勞）4個屬。",
        "瑠璃，或者琉璃（るり）是佛教七寶之一。是梵語vaiḍūrya或其俗語形式的音譯。也指金綠寶石，也說是青金石[1]。",
        "瑠璃色（るりいろ）是帶紫色調的深藍色。名稱來源於半寶石瑠璃（青金石，英: lapis lazuli）。在JIS慣用色名中定義為「深紫色的藍色」（縮寫 dp - pB）[1][2]。",
    ],
)
print(result)

📊 基準測試

模型	#參數（不含嵌入層）	JQaRA	JaCWIR	MIRACL
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	1.07億（1100萬）	61.4	93.8	90.6
hotchpotch/japanese-reranker-cross-encoder-small-v1	1.18億（2100萬）	62.5	93.9	92.2
hotchpotch/japanese-reranker-cross-encoder-base-v1	1.11億（8600萬）	67.1	93.4	93.3
hotchpotch/japanese-reranker-cross-encoder-large-v1	3.37億（3.03億）	71.0	93.6	91.5
hotchpotch/japanese-bge-reranker-v2-m3-v1	5.68億（3.03億）	69.2	93.7	94.7
BAAI/bge-reranker-v2-m3	5.68億（3.03億）	67.3	93.4	94.9
瑠璃重排器 - 小型版（Ruri-Reranker-Small）	6800萬（4300萬）	64.5	92.6	92.3
瑠璃重排器 - 基礎版（Ruri-Reranker-Base）（本模型）	1.11億（8600萬）	74.3	93.5	95.6
瑠璃重排器 - 大型版（Ruri-Reranker-Large）	3.37億（3.03億）	77.1	94.1	96.1

📚 詳細文檔

模型描述

屬性	詳情
模型類型	Sentence Transformer
基礎模型	cl-nagoya/ruri-pr-base
最大序列長度	512個詞元
語言	日語
許可證	Apache 2.0
論文	https://arxiv.org/abs/2409.07737