jina-reranker-v2-base-multilingual-wiki-tr-rag-prefix開源模型 - 免費實現文本重排序與語義搜索

首頁

Jina Reranker V2 Base Multilingual Wiki Tr Rag Prefix

由SMARTICT開發

基於jina-reranker-v2-base-multilingual微調的交叉編碼器模型，用於文本重排序和語義搜索

文本嵌入

Safetensors

開源協議:Apache-2.0 #多語言語義重排序 #高精度交叉編碼器 #長文本匹配優化

下載量 173

發布時間 : 4/15/2025

模型概述

這是一個基於jina-reranker-v2-base-multilingual微調的交叉編碼器模型，能夠計算文本對的匹配分數，主要用於文本重排序和語義搜索任務。

模型特點

多語言支持

基於多語言基礎模型，支持多種語言的文本重排序

高性能重排序

在多個評估數據集上表現出色，特別是在gooaq開發集上達到0.9386的nDCG@10

長文本處理

支持最大1024個標記的序列長度，適合處理較長文本

模型能力

文本對匹配評分

語義搜索重排序

多語言文本處理

使用案例

信息檢索

問答系統重排序

對問答系統中的候選答案進行重排序，提高正確答案的排名

在NanoNQ數據集上達到0.6937的平均精度

文檔檢索

對搜索引擎返回的文檔進行重排序，提高相關性

在NanoMSMARCO數據集上達到0.5847的平均精度

推薦系統

內容推薦

對推薦內容進行相關性排序，提高推薦質量

🚀 jina-reranker-v2-base-multilingual 測試

這是一個基於 Cross Encoder 的模型，它使用 sentence-transformers 庫從 jinaai/jina-reranker-v2-base-multilingual 微調而來。該模型可以計算文本對的得分，可用於文本重排序和語義搜索。

🚀 快速開始

本模型是一個基於 Cross Encoder 的微調模型，使用 sentence-transformers 庫進行開發。它能夠為文本對計算得分，在文本重排序和語義搜索等任務中發揮作用。

✨ 主要特性

基於 Cross Encoder 架構，可有效計算文本對的相關性得分。
從預訓練模型微調而來，具備良好的泛化能力。
支持文本重排序和語義搜索任務。

📦 安裝指南

安裝 Sentence Transformers 庫

首先，你需要安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

安裝好庫後，你可以加載模型並進行推理：

from sentence_transformers import CrossEncoder

# 從 🤗 Hub 下載模型
model = CrossEncoder("SMARTICT/jina-reranker-v2-base-multilingual-wiki-tr-rag-prefix")
# 獲取文本對的得分
pairs = [
    ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.'],
    ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.'],
    ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.'],
    ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.'],
    ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

高級用法

你還可以根據單個文本與其他文本的相似度對它們進行排序：

# 根據與單個文本的相似度對不同文本進行排序
ranks = model.rank(
    'query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?',
    [
        'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.',
        'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.',
        'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.',
        'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.',
        'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	Cross Encoder
基礎模型	jinaai/jina-reranker-v2-base-multilingual
最大序列長度	1024 個標記
輸出標籤數量	1 個標籤
許可證	apache-2.0

模型來源

文檔：Sentence Transformers 文檔
文檔：Cross Encoder 文檔
倉庫：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Cross Encoders

評估

指標

Cross Encoder 重排序（`gooaq-dev` 數據集）

數據集：gooaq-dev

使用 CrossEncoderRerankingEvaluator 進行評估，參數如下：

{
    "at_k": 10,
    "always_rerank_positives": false
}

指標	值
map	0.9094 (-0.0382)
mrr@10	0.9248 (-0.0228)
ndcg@10	0.9386 (-0.0118)

Cross Encoder 重排序（`NanoMSMARCO_R100`, `NanoNFCorpus_R100` 和 `NanoNQ_R100` 數據集）

數據集：NanoMSMARCO_R100, NanoNFCorpus_R100 和 NanoNQ_R100

使用 CrossEncoderRerankingEvaluator 進行評估，參數如下：

{
    "at_k": 10,
    "always_rerank_positives": true
}

指標	NanoMSMARCO_R100	NanoNFCorpus_R100	NanoNQ_R100
map	0.5847 (+0.0951)	0.4027 (+0.1417)	0.6937 (+0.2741)
mrr@10	0.5880 (+0.1105)	0.6892 (+0.1894)	0.7346 (+0.3079)
ndcg@10	0.6644 (+0.1240)	0.4778 (+0.1527)	0.7569 (+0.2562)

Cross Encoder Nano BEIR（`NanoBEIR_R100_mean` 數據集）

數據集：NanoBEIR_R100_mean

使用 CrossEncoderNanoBEIREvaluator 進行評估，參數如下：

{
    "dataset_names": [
        "msmarco",
        "nfcorpus",
        "nq"
    ],
    "rerank_k": 100,
    "at_k": 10,
    "always_rerank_positives": true
}

指標	值
map	0.5604 (+0.1703)
mrr@10	0.6706 (+0.2026)
ndcg@10	0.6330 (+0.1776)

訓練詳情

訓練數據集

未命名數據集

大小：26,004 個訓練樣本
列：question，answer 和 label
基於前 1000 個樣本的近似統計信息： | | 問題 | 答案 | 標籤 | |------|------|------|------| | 類型 | 字符串 | 字符串 | 整數 | | 詳情 |
- 最小：27 個字符
- 平均：78.97 個字符
- 最大：182 個字符
|
- 最小：44 個字符
- 平均：273.24 個字符
- 最大：836 個字符
|
- 0：~81.00%
- 1：~19.00%
|
樣本： | 問題 | 答案 | 標籤 | |------|------|------| | query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? | passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur. | 1 | | query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? | passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır. | 0 | | query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? | passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir. | 0 |

損失函數：BinaryCrossEntropyLoss，參數如下：

{
    "activation_fn": "torch.nn.modules.linear.Identity",
    "pos_weight": 5
}

訓練超參數

非默認超參數

eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
learning_rate: 2e-05
num_train_epochs: 2
warmup_ratio: 0.1
bf16: True
dataloader_num_workers: 4
load_best_model_at_end: True

所有超參數

點擊展開

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 4
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: proportional

訓練日誌

輪次	步驟	訓練損失	gooaq-dev_ndcg@10	NanoMSMARCO_R100_ndcg@10	NanoNFCorpus_R100_ndcg@10	NanoNQ_R100_ndcg@10	NanoBEIR_R100_mean_ndcg@10
-1	-1	-	0.9555 (+0.0050)	0.6801 (+0.1397)	0.4668 (+0.1417)	0.7932 (+0.2925)	0.6467 (+0.1913)
0.0006	1	0.2737	-	-	-	-	-
0.6150	1000	0.0997	-	-	-	-	-
1.2300	2000	0.019	-	-	-	-	-
1.8450	3000	0.0202	-	-	-	-	-
-1	-1	-	0.9386 (-0.0118)	0.6644 (+0.1240)	0.4778 (+0.1527)	0.7569 (+0.2562)	0.6330 (+0.1776)

框架版本

Python: 3.11.12
Sentence Transformers: 4.0.2
Transformers: 4.51.1
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.5.0
Tokenizers: 0.21.1

📄 許可證

本模型使用 apache-2.0 許可證。

📖 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}