🚀 瑠璃重排器(Ruri-Reranker):日语通用重排器
瑠璃重排器(Ruri-Reranker)是一个用于日语的通用重排器,基于Sentence Transformers库,能对文本进行排序,在问答、信息检索等场景有良好表现。
🚀 快速开始
直接使用(Sentence Transformers)
首先,安装Sentence Transformers库:
pip install -U sentence-transformers
然后,你可以加载该模型并进行推理:
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")
inputs = [
[
"瑠璃色是怎样的颜色?",
"瑠璃色(るりいろ)是带紫色调的深蓝色。名称来源于半宝石瑠璃(青金石,英: lapis lazuli)。在JIS惯用色名中定义为「深紫色的蓝色」(缩写 dp - pB)[1][2]。",
],
[
"瑠璃色是怎样的颜色?",
"鹰、鹫、秃鹫、隼、康多兀鹫、猫头鹰是具有代表性的。这些猛禽类在林奈前后的时代(17 - 18世纪)被分类为鹫类、鹰类、隼类和枭类。顺便说一下,林奈将狩猎的鸟类归为单一的目(もく),包括vultur(康多兀鹫、秃鹫)、falco(鹰、鹫、隼等)、strix(猫头鹰)、lanius(伯劳)4个属。",
],
[
"像鹰和鹫这样,拥有锋利的喙和爪子的大型鸟类统称为什么类?",
"鹰、鹫、秃鹫、隼、康多兀鹫、猫头鹰是具有代表性的。这些猛禽类在林奈前后的时代(17 - 18世纪)被分类为鹫类、鹰类、隼类和枭类。顺便说一下,林奈将狩猎的鸟类归为单一的目(もく),包括vultur(康多兀鹫、秃鹫)、falco(鹰、鹫、隼等)、strix(猫头鹰)、lanius(伯劳)4个属。",
],
[
"像鹰和鹫这样,拥有锋利的喙和爪子的大型鸟类统称为什么类?",
"瑠璃色(るりいろ)是带紫色调的深蓝色。名称来源于半宝石瑠璃(青金石,英: lapis lazuli)。在JIS惯用色名中定义为「深紫色的蓝色」(缩写 dp - pB)[1][2]。",
],
]
scores = model.predict(inputs)
print(scores)
result = model.rank(
query="瑠璃色是怎样的颜色?",
documents=[
"鹰、鹫、秃鹫、隼、康多兀鹫、猫头鹰是具有代表性的。这些猛禽类在林奈前后的时代(17 - 18世纪)被分类为鹫类、鹰类、隼类和枭类。顺便说一下,林奈将狩猎的鸟类归为单一的目(もく),包括vultur(康多兀鹫、秃鹫)、falco(鹰、鹫、隼等)、strix(猫头鹰)、lanius(伯劳)4个属。",
"瑠璃,或者琉璃(るり)是佛教七宝之一。是梵语vaiḍūrya或其俗语形式的音译。也指金绿宝石,也说是青金石[1]。",
"瑠璃色(るりいろ)是带紫色调的深蓝色。名称来源于半宝石瑠璃(青金石,英: lapis lazuli)。在JIS惯用色名中定义为「深紫色的蓝色」(缩写 dp - pB)[1][2]。",
],
)
print(result)
💻 使用示例
基础用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("cl-nagoya/ruri-reranker-stage1-base")
inputs = [
[
"瑠璃色是怎样的颜色?",
"瑠璃色(るりいろ)是带紫色调的深蓝色。名称来源于半宝石瑠璃(青金石,英: lapis lazuli)。在JIS惯用色名中定义为「深紫色的蓝色」(缩写 dp - pB)[1][2]。",
]
]
scores = model.predict(inputs)
print(scores)
高级用法
result = model.rank(
query="瑠璃色是怎样的颜色?",
documents=[
"鹰、鹫、秃鹫、隼、康多兀鹫、猫头鹰是具有代表性的。这些猛禽类在林奈前后的时代(17 - 18世纪)被分类为鹫类、鹰类、隼类和枭类。顺便说一下,林奈将狩猎的鸟类归为单一的目(もく),包括vultur(康多兀鹫、秃鹫)、falco(鹰、鹫、隼等)、strix(猫头鹰)、lanius(伯劳)4个属。",
"瑠璃,或者琉璃(るり)是佛教七宝之一。是梵语vaiḍūrya或其俗语形式的音译。也指金绿宝石,也说是青金石[1]。",
"瑠璃色(るりいろ)是带紫色调的深蓝色。名称来源于半宝石瑠璃(青金石,英: lapis lazuli)。在JIS惯用色名中定义为「深紫色的蓝色」(缩写 dp - pB)[1][2]。",
],
)
print(result)
📊 基准测试
📚 详细文档
模型描述
训练详情
框架版本
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1
📄 许可证
本模型根据 Apache许可证2.0版本 发布。