japanese-reranker-cross-encoder-base-v1开源模型 - 专为日语文本相关性排序而生

首页

Japanese Reranker Cross Encoder Base V1

由 hotchpotch 开发

这是一个基于日语训练的Reranker（CrossEncoder）模型，用于文本相关性排序任务。

文本嵌入

Safetensors

日语开源协议:MIT #日语重排序 #跨编码器 #文本相关性评分

下载量 750

发布时间 : 3/29/2024

模型简介

该模型是日语Reranker系列的一部分，专门用于对日语文本进行相关性排序。它基于CrossEncoder架构，能够高效地评估查询与文档之间的相关性。

模型特点

多尺寸模型选择

提供从xsmall到large多种尺寸的模型，满足不同计算资源需求

日语优化

专门针对日语文本进行训练和优化

高性能

在多个日语评估数据集上表现优异

模型能力

文本相关性评分

查询-文档匹配度评估

日语文本处理

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的结果进行相关性重排序

提高搜索结果的相关性和质量

问答系统

评估候选答案与问题的匹配程度

提升问答系统的准确率

内容推荐

文章推荐

根据用户查询推荐相关文章

提高推荐内容的相关性

🚀 hotchpotch/japanese-reranker-cross-encoder-base-v1

这是一个使用日语进行训练的重排器（CrossEncoder）系列模型。该系列模型能有效处理文本排序任务，为日语相关的信息检索和文本处理提供了强大的支持。

✨ 主要特性

基于日语训练，更适配日语场景。
提供了不同规模的模型，如xsmall、small、base、large等，可根据不同需求选择。
可通过SentenceTransformers和HuggingFace transformers两种方式使用。

📦 安装指南

文档未提供具体安装步骤，你可根据使用的库（SentenceTransformers或HuggingFace transformers）进行常规安装。例如，使用pip安装：

pip install sentence-transformers
pip install transformers

💻 使用示例

基础用法

SentenceTransformers

from sentence_transformers import CrossEncoder
import torch

MODEL_NAME = "hotchpotch/japanese-reranker-cross-encoder-base-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"
model = CrossEncoder(MODEL_NAME, max_length=512, device=device)
if device == "cuda":
    model.model.half()
query = "感動的な映画について"
passages = [
    "深いテーマを持ちながらも、観る人の心を揺さぶる名作。登場人物の心情描写が秀逸で、ラストは涙なしでは見られない。",
    "重要なメッセージ性は評価できるが、暗い話が続くので気分が落ち込んでしまった。もう少し明るい要素があればよかった。",
    "どうにもリアリティに欠ける展開が気になった。もっと深みのある人間ドラマが見たかった。",
    "アクションシーンが楽しすぎる。見ていて飽きない。ストーリーはシンプルだが、それが逆に良い。",
]
scores = model.predict([(query, passage) for passage in passages])

HuggingFace transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from torch.nn import Sigmoid

MODEL_NAME = "hotchpotch/japanese-reranker-cross-encoder-base-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
model.to(device)
model.eval()

if device == "cuda":
    model.half()

query = "感動的な映画について"
passages = [
    "深いテーマを持ちながらも、観る人の心を揺さぶる名作。登場人物の心情描写が秀逸で、ラストは涙なしでは見られない。",
    "重要なメッセージ性は評価できるが、暗い話が続くので気分が落ち込んでしまった。もう少し明るい要素があればよかった。",
    "どうにもリアリティに欠ける展開が気になった。もっと深みのある人間ドラマが見たかった。",
    "アクションシーンが楽しすぎる。見ていて飽きない。ストーリーはシンプルだが、それが逆に良い。",
]
inputs = tokenizer(
    [(query, passage) for passage in passages],
    padding=True,
    truncation=True,
    max_length=512,
    return_tensors="pt",
)
inputs = {k: v.to(device) for k, v in inputs.items()}
logits = model(**inputs).logits
activation = Sigmoid()
scores = activation(logits).squeeze().tolist()

📚 详细文档

模型信息

属性	详情
模型类型	重排器（CrossEncoder）
训练数据	hotchpotch/JQaRA、shunk031/JGLUE、miracl/miracl、castorini/mr-tydi、unicamp-dl/mmarco

模型列表

模型名	layers	hidden_size
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	6	384
hotchpotch/japanese-reranker-cross-encoder-small-v1	12	384
hotchpotch/japanese-reranker-cross-encoder-base-v1	12	768
hotchpotch/japanese-reranker-cross-encoder-large-v1	24	1024
hotchpotch/japanese-bge-reranker-v2-m3-v1	24	1024

参考资料

评估结果

模型名	JQaRA	JaCWIR	MIRACL	JSQuAD
japanese-reranker-cross-encoder-xsmall-v1	0.6136	0.9376	0.7411	0.9602
japanese-reranker-cross-encoder-small-v1	0.6247	0.939	0.7776	0.9604
japanese-reranker-cross-encoder-base-v1	0.6711	0.9337	0.818	0.9708
japanese-reranker-cross-encoder-large-v1	0.7099	0.9364	0.8406	0.9773
japanese-bge-reranker-v2-m3-v1	0.6918	0.9372	0.8423	0.9624
bge-reranker-v2-m3	0.673	0.9343	0.8374	0.9599
bge-reranker-large	0.4718	0.7332	0.7666	0.7081
bge-reranker-base	0.2445	0.4905	0.6792	0.5757
cross-encoder-mmarco-mMiniLMv2-L12-H384-v1	0.5588	0.9211	0.7158	0.932
shioriha-large-reranker	0.5775	0.8458	0.8084	0.9262
bge-m3+all	0.576	0.904	0.7926	0.9226
bge-m3+dense	0.539	0.8642	0.7753	0.8815
bge-m3+colbert	0.5656	0.9064	0.7902	0.9297
bge-m3+sparse	0.5088	0.8944	0.6941	0.9184
JaColBERTv2	0.5847	0.9185	0.6861	0.9247
multilingual-e5-large	0.554	0.8759	0.7722	0.8892
multilingual-e5-small	0.4917	0.869	0.7025	0.8565
bm25	0.458	0.8408	0.4387	0.9002