🚀 瑠璃重排器(Ruri-Reranker):日語通用重排器
瑠璃重排器(Ruri-Reranker)是一個用於日語的通用重排器,基於Sentence Transformers庫,能對文本進行排序,在問答、信息檢索等場景有良好表現。
🚀 快速開始
直接使用(Sentence Transformers)
首先,安裝Sentence Transformers庫:
pip install -U sentence-transformers
然後,你可以加載該模型並進行推理:
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")
inputs = [
[
"瑠璃色是怎樣的顏色?",
"瑠璃色(るりいろ)是帶紫色調的深藍色。名稱來源於半寶石瑠璃(青金石,英: lapis lazuli)。在JIS慣用色名中定義為「深紫色的藍色」(縮寫 dp - pB)[1][2]。",
],
[
"瑠璃色是怎樣的顏色?",
"鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代(17 - 18世紀)被分類為鷲類、鷹類、隼類和梟類。順便說一下,林奈將狩獵的鳥類歸為單一的目(もく),包括vultur(康多兀鷲、禿鷲)、falco(鷹、鷲、隼等)、strix(貓頭鷹)、lanius(伯勞)4個屬。",
],
[
"像鷹和鷲這樣,擁有鋒利的喙和爪子的大型鳥類統稱為什麼類?",
"鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代(17 - 18世紀)被分類為鷲類、鷹類、隼類和梟類。順便說一下,林奈將狩獵的鳥類歸為單一的目(もく),包括vultur(康多兀鷲、禿鷲)、falco(鷹、鷲、隼等)、strix(貓頭鷹)、lanius(伯勞)4個屬。",
],
[
"像鷹和鷲這樣,擁有鋒利的喙和爪子的大型鳥類統稱為什麼類?",
"瑠璃色(るりいろ)是帶紫色調的深藍色。名稱來源於半寶石瑠璃(青金石,英: lapis lazuli)。在JIS慣用色名中定義為「深紫色的藍色」(縮寫 dp - pB)[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色是怎樣的顏色?",
documents=[
"鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代(17 - 18世紀)被分類為鷲類、鷹類、隼類和梟類。順便說一下,林奈將狩獵的鳥類歸為單一的目(もく),包括vultur(康多兀鷲、禿鷲)、falco(鷹、鷲、隼等)、strix(貓頭鷹)、lanius(伯勞)4個屬。",
"瑠璃,或者琉璃(るり)是佛教七寶之一。是梵語vaiḍūrya或其俗語形式的音譯。也指金綠寶石,也說是青金石[1]。",
"瑠璃色(るりいろ)是帶紫色調的深藍色。名稱來源於半寶石瑠璃(青金石,英: lapis lazuli)。在JIS慣用色名中定義為「深紫色的藍色」(縮寫 dp - pB)[1][2]。",
],
)
print(result)
💻 使用示例
基礎用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")
inputs = [
[
"瑠璃色是怎樣的顏色?",
"瑠璃色(るりいろ)是帶紫色調的深藍色。名稱來源於半寶石瑠璃(青金石,英: lapis lazuli)。在JIS慣用色名中定義為「深紫色的藍色」(縮寫 dp - pB)[1][2]。",
]
]
scores = model.predict(inputs)
print(scores)
高級用法
result = model.rank(
query="瑠璃色是怎樣的顏色?",
documents=[
"鷹、鷲、禿鷲、隼、康多兀鷲、貓頭鷹是具有代表性的。這些猛禽類在林奈前後的時代(17 - 18世紀)被分類為鷲類、鷹類、隼類和梟類。順便說一下,林奈將狩獵的鳥類歸為單一的目(もく),包括vultur(康多兀鷲、禿鷲)、falco(鷹、鷲、隼等)、strix(貓頭鷹)、lanius(伯勞)4個屬。",
"瑠璃,或者琉璃(るり)是佛教七寶之一。是梵語vaiḍūrya或其俗語形式的音譯。也指金綠寶石,也說是青金石[1]。",
"瑠璃色(るりいろ)是帶紫色調的深藍色。名稱來源於半寶石瑠璃(青金石,英: lapis lazuli)。在JIS慣用色名中定義為「深紫色的藍色」(縮寫 dp - pB)[1][2]。",
],
)
print(result)
📊 基準測試
📚 詳細文檔
模型描述
訓練詳情
框架版本
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1
📄 許可證
本模型根據 Apache許可證2.0版本 發佈。