Japanese-reranker-cross-encoder-small-v1 Open Source Model - Free to Boost Japanese Text Ranking Tasks

Home

Japanese Reranker Cross Encoder Small V1

Developed by hotchpotch

This is a Japanese-trained Reranker (Cross-Encoder) model for text ranking tasks.

Text Embedding

Safetensors

JapaneseOpen Source License:MIT #Japanese Reranking #Cross-Encoder #Text Relevance Scoring

Downloads 209

Release Time : 3/28/2024

Model Overview

This model is a cross-encoder specifically designed for Japanese text, used for reordering search results or related text passages to improve the accuracy of information retrieval.

Model Features

Japanese Optimization

Specially trained for Japanese text, excelling in Japanese text ranking tasks.

Multiple Size Options

Offers models from xsmall to large to meet different computational resource needs.

High Performance

Outperforms other similar models on multiple Japanese evaluation datasets.

Model Capabilities

Japanese text relevance scoring

Search result reordering

Text passage relevance evaluation

Use Cases

Information Retrieval

Search Engine Result Optimization

Reorders search engine results to improve the ranking of the most relevant results.

Achieved a score of 0.6247 on the JQaRA dataset.

Question Answering System

Evaluates the relevance of candidate answers to questions to select the best answer.

Achieved a score of 0.9604 on the JSQuAD dataset.

🚀 hotchpotch/japanese-reranker-cross-encoder-small-v1

This is a series of Reranker (CrossEncoder) models trained in Japanese. They are designed to enhance the performance of text ranking tasks.

Property	Details
Model Type	Reranker (CrossEncoder)
Training Data	hotchpotch/JQaRA, shunk031/JGLUE, miracl/miracl, castorini/mr-tydi, unicamp-dl/mmarco

Model Name	Layers	Hidden Size
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1	6	384
hotchpotch/japanese-reranker-cross-encoder-small-v1	12	384
hotchpotch/japanese-reranker-cross-encoder-base-v1	12	768
hotchpotch/japanese-reranker-cross-encoder-large-v1	24	1024
hotchpotch/japanese-bge-reranker-v2-m3-v1	24	1024

For more information about Rerankers, technical reports, and evaluations, please refer to the following links:

🚀 Quick Start

Here are examples of how to use the model with different libraries.

💻 Usage Examples

Basic Usage with SentenceTransformers

from sentence_transformers import CrossEncoder
import torch

MODEL_NAME = "hotchpotch/japanese-reranker-cross-encoder-small-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"
model = CrossEncoder(MODEL_NAME, max_length=512, device=device)
if device == "cuda":
    model.model.half()
query = "感動的な映画について"
passages = [
    "深いテーマを持ちながらも、観る人の心を揺さぶる名作。登場人物の心情描写が秀逸で、ラストは涙なしでは見られない。",
    "重要なメッセージ性は評価できるが、暗い話が続くので気分が落ち込んでしまった。もう少し明るい要素があればよかった。",
    "どうにもリアリティに欠ける展開が気になった。もっと深みのある人間ドラマが見たかった。",
    "アクションシーンが楽しすぎる。見ていて飽きない。ストーリーはシンプルだが、それが逆に良い。",
]
scores = model.predict([(query, passage) for passage in passages])

Basic Usage with HuggingFace transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from torch.nn import Sigmoid

MODEL_NAME = "hotchpotch/japanese-reranker-cross-encoder-small-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
model.to(device)
model.eval()

if device == "cuda":
    model.half()

query = "感動的な映画について"
passages = [
    "深いテーマを持ちながらも、観る人の心を揺さぶる名作。登場人物の心情描写が秀逸で、ラストは涙なしでは見られない。",
    "重要なメッセージ性は評価できるが、暗い話が続くので気分が落ち込んでしまった。もう少し明るい要素があればよかった。",
    "どうにもリアリティに欠ける展開が気になった。もっと深みのある人間ドラマが見たかった。",
    "アクションシーンが楽しすぎる。見ていて飽きない。ストーリーはシンプルだが、それが逆に良い。",
]
inputs = tokenizer(
    [(query, passage) for passage in passages],
    padding=True,
    truncation=True,
    max_length=512,
    return_tensors="pt",
)
inputs = {k: v.to(device) for k, v in inputs.items()}
logits = model(**inputs).logits
activation = Sigmoid()
scores = activation(logits).squeeze().tolist()

Evaluation Results

Model Name	JQaRA	JaCWIR	MIRACL	JSQuAD
japanese-reranker-cross-encoder-xsmall-v1	0.6136	0.9376	0.7411	0.9602
japanese-reranker-cross-encoder-small-v1	0.6247	0.939	0.7776	0.9604
japanese-reranker-cross-encoder-base-v1	0.6711	0.9337	0.818	0.9708
japanese-reranker-cross-encoder-large-v1	0.7099	0.9364	0.8406	0.9773
japanese-bge-reranker-v2-m3-v1	0.6918	0.9372	0.8423	0.9624
bge-reranker-v2-m3	0.673	0.9343	0.8374	0.9599
bge-reranker-large	0.4718	0.7332	0.7666	0.7081
bge-reranker-base	0.2445	0.4905	0.6792	0.5757
cross-encoder-mmarco-mMiniLMv2-L12-H384-v1	0.5588	0.9211	0.7158	0.932
shioriha-large-reranker	0.5775	0.8458	0.8084	0.9262
bge-m3+all	0.576	0.904	0.7926	0.9226
bge-m3+dense	0.539	0.8642	0.7753	0.8815
bge-m3+colbert	0.5656	0.9064	0.7902	0.9297
bge-m3+sparse	0.5088	0.8944	0.6941	0.9184
JaColBERTv2	0.5847	0.9185	0.6861	0.9247
multilingual-e5-large	0.554	0.8759	0.7722	0.8892
multilingual-e5-small	0.4917	0.869	0.7025	0.8565
bm25	0.458	0.8408	0.4387	0.9002

📄 License

This project is licensed under the MIT License.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご